Systeemarchitectuur
De modellen zijn gebaseerd op twee soorten inhoud: internetinhoud (voornamelijk bestaand uit hoge volumes met veel slang) en internettrollen. Hiervoor kunnen snelle API's in productie worden ingezet om de inhoud te modereren. Het tweede type inhoud zijn toxische gebruikers en bedriegers die zich voordoen als iemand anders. Om dit goed te kunnen filteren is meer machine learning en kennis nodig. Hoewel het volume van dit soort inhoud lager is, is het potentieel veel schadelijker voor de app en de gebruikers. Inhoud met een laag volume wordt asynchroon behandeld met diepgaandere algoritmen, terwijl er voor inhoud met een hoog volume snel reagerende API's nodig zijn.
Zodra het inhoudstype is geïdentificeerd, komt het in een gegevensstroom die uit verschillende modellen bestaat. Er zijn verschillende beperkingen voor iedere taal, iedere categorie en iedere functie. Er zijn ongeveer 120 modellen in productie, hoofdzakelijk gebaseerd op CBOW+fasttext en NBSVM. Een chat-bericht wordt bijvoorbeeld door ten minste drie modellen gefilterd. Een typische pijplijn ziet er als volgt uit:
1. Woordstambepaling, lemmatisering, ontsluiering
∂σ уαℓℓ ωαηηα вє ƒяιєη∂ѕ -> (doen, jij, willen, zijn, vriend)
2. Taalherkenning
3. Herkenning van persoonlijke informatie
4. Filtering van scheldwoorden/ongewenst taalgebruik