Products in this case study: 

15 Millionen

Nachrichten werden täglich über die App verschickt

1,55 Millionen

monatlich kommentierte Beispiele für aktives Lernen

Yubo ist eine Social-Media-App für Teenager und junge Erwachsene, die über Live-Streaming und Messaging neue Leute kennenlernen möchten.
Industries: 
Founded: 
2015
Headquarters: 
Paris, Frankreich
Size: 
11 - 50

Der Kunde

Das Team, das hinter der Social-Media-App Yubo steht, ebnet den Weg für intelligent aufgebaute Apps, die viel für ihre Leistung bieten. Mit einem schlanken Team, das 50 Millionen registrierte Benutzer (und mehr) auf einer Kombination aus dedizierten Leaseweb-Servern und maßgeschneiderten KI-Systemen unterstützt, konzentriert sich Yubo auf die Entwicklung einer sicheren und skalierbaren Anwendung.

Schlüsselanforderungen

  • Skalierbarkeit: Die Nutzerbasis von Yubo wächst schnell, daher braucht das Unternehmen eine Infrastruktur, die mitwachsen kann
  • Sicheres Netzwerk: Yubo-Konversationen können private Inhalte enthalten, sodass Pprivate Networking in der Infrastruktur mit Unterstützung für eine Ende-zu-Ende-Datenverschlüsselung zusätzlich erforderlich ist

Unsere Lösung

  • Dedizierte Hochleistungsserver
  • Private Networking, das die Zusammenschaltung von Servern in Leaseweb-Rechenzentren ermöglicht, um die Skalierbarkeit und Sicherheit zu erhöhen
  • Hochleistungs-CPUs (E5-2650v2) für Analysezwecke und Standard-CPUs (E3-1240) für Proxy-Server
  • SSD-Speicher für optimale Geschwindigkeit beim Abrufen, Bearbeiten und Austauschen von Daten
  • Services in den USA, den Niederlanden und Australien

Auf der Basis von Bare Metal bauten Benichoux und sein Team („Team Profanity“) die KI-Moderationsplattform auf, indem sie die Daten definierten und filterten, sodass sie brauchbar und verarbeitbar wurden.

Die Herausforderung

Yubo musste die Sicherheit seiner Nutzer durch die Moderation von Inhalten – hauptsächlich Texte, Bilder und Live-Streams (auch als „Lives“ bezeichnet) – sicherstellen. „Unsere Mission ist es, Menschen miteinander zu verbinden und ihnen zu ermöglichen, mit Menschen, die sie nicht kennen, in Echtzeit zu interagieren“, erklärt Arthur Patora, Yubo-Mitbegründer und CTO. „Um diese Aufgabe zu erfüllen, müssen wir die App so sicher wie möglich gestalten. Alles, was wir tun, ist darauf ausgerichtet, unsere Nutzer zu unterstützen.“

Zu diesem Zweck hat Yubo unzählig viele In-App-Funktionen entwickelt, die es den Nutzern ermöglichen, ihre eigenen Profile und „Lives“ zu moderieren. Für alles andere setzte das Team auf KI.

Yubo nutzt KI vor allem für die Gesichtserkennung, die ID-Überprüfung und die Textanalyse. Als die App wuchs, entwickelte sich auch die Sprache der Nutzer – und begann, ein Eigenleben zu entwickeln. „Am Anfang haben wir eine API eines Drittanbieters verwendet, die aber nicht alle unsere Anforderungen erfüllte“, erläutert Patora. „Wir hatten zu viele Algorithmus-Änderungsanfragen pro Iteration, und die meisten unserer Inhalte sind kurz – etwas, das die Textmoderations-Tools nicht erkennen können, da sie hauptsächlich auf Artikel trainiert sind.“

Die Behebung der Probleme bei der Textmoderation erwies sich als kostspielig und ressourcenintensiv. „Wir haben sogar angefangen, in API-Schnittstellen die falschen Wörter einzugeben, die wir in der App gefunden haben und die unsere menschlichen Moderatoren den ganzen Tag gesehen haben“, sagt Patora. Es war weder nachhaltig noch skalierbar. „Da wurde uns klar, dass wir unser eigenes System aufbauen mussten.“

„Wenn die Moderation ausfällt, dann geht alles den Bach runter. Es ist ein Albtraum.“

Arthur Patora, Yubo-Mitbegründer und CTO

Mehr als nur Textmoderation

Aber wie einzigartig ist der Text in Yubo? Alexis Benichoux, Spezialist für maschinelles Lernen bei Yubo, liefert die Erklärung:

  • Es ist schwer zu erkennen, welche Sprache gerade gesprochen wird, da viele Nutzer mehrere Sprachen gleichzeitig mischen. So kann ein Nutzer zum Beispiel etwas auf Schwedisch sagen, das akzeptabel ist, aber auf Englisch als obszön eingestuft wird, weil das Wort im Englischen eine andere Bedeutung hat.
  • Die meisten Nachrichten sind sehr kurz, und viele kurze Slangwörter können in einer Sprache gebräuchlich sein, aber in einer anderen etwas völlig anderes bedeuten.
  • Einige Sprachen sind sich sehr ähnlich, wie z. B. Spanisch und Portugiesisch.
  • Es gibt einen Internet-Slang und sogar eine „Yubo-Sprache“, die nur für die App gilt.
  • Viele Nachrichten verwenden Emojis – eine Nachricht kann aus drei einzelnen Buchstaben und einem Emoji bestehen.
  • Absichtliche Rechtschreibfehler bei obszönen oder verbotenen Inhalten sind üblich und müssen ebenfalls berücksichtigt werden.

„Textmoderation bei Yubo ist nicht wirklich Sprachverarbeitung – es ist etwas sehr Spezifisches.“

Alexis Benichoux, Spezialist für maschinelles Lernen bei Yubo

Die Lösung

Yubo beschloss, eine eigene Moderationsplattform zu entwickeln und entschied sich für eine dedizierte Serverlösung bei Leaseweb. Das Unternehmen hatte in der Vergangenheit mit anderen Cloud-Lösungen von Drittanbietern experimentiert, entschied sich dann aber aufgrund der niedrigeren Kosten und des hohen Skalierungspotenzials für dedizierte Serverlösungen. „Ursprünglich wurden wir von Google Cloud gehostet“, sagt Patora, „aber das wurde schnell viel zu teuer.“ Durch den Wechsel von Google zu Leaseweb sparte Yubo über 80 % der Infrastrukturkosten ein, die sonst angefallen wären. Dieses Geld konnte dann wieder in ihre Mitarbeiter, die neue Moderationsplattform und die App investiert werden.

Systemarchitektur

Die Modelle stützen sich auf zwei Arten von Inhalten: Internetinhalte (die zumeist sehr viel Slang enthalten) und Internet-Trolle. Hierfür können schnelle APIs in der Produktion eingesetzt werden, um Inhalte zu moderieren. Bei der zweiten Art von Inhalten handelt es sich um toxische Nutzer und Betrüger, die mehr maschinelles Lernen und Wissen für die richtige Filterung erfordern. Diese Inhalte sind zwar weniger umfangreich, haben aber ein viel größeres Schadenspotenzial für die App und die Nutzer. Inhalte mit niedrigem Volumen werden mit tieferen Algorithmen in asynchroner Zeit behandelt, während Inhalte mit hohem Volumen schnell reagierende APIs benötigen.

Sobald der Inhaltstyp identifiziert ist, gelangt er in einen Datenfluss, der aus verschiedenen Modellen besteht. Für jede Sprache, Kategorie und jedes Merkmal gelten andere Einschränkungen. Es gibt etwa 120 Modelle in der Produktion. Diese basieren hauptsächlich auf (CBOW+fasttext und NBSVM). Zum Beispiel durchläuft eine Cchat-ähnliche Nachricht mindestens drei Modelle. Eine typische Pipeline umfasst:

1. Stemming, Lemmatisierung, Deobfuskation

                    ∂σ уαℓℓ ωαηηα вє ƒяιєη∂ѕ -> (willst, du, Freund, sein)

2. Spracherkennung
3. Erkennung persönlicher Informationen
4. Filterung von obszönen Inhalten

Datenfluss

  • Modelltraining

     Die Yubo-Daten werden verwendet, um die Modelle kontinuierlich neu zu trainieren. Das geschieht offline, und die zu prüfenden Punkte werden an Datenbuckets gesendet, die von Frontend-APIs bedient werden können.

    • Daten: Das Team beginnt mit einem sauberen Datensatz, der vollständig außerhalb der Produktion liegen kann. Es werden keine externen Daten verwendet – alles kommt von Yubo.
    • Annotation: Es gibt eine App für benutzerbasierte Annotation sowie Annotationskampagnen.
    • Modellierung: Es gibt verschiedene Modelle für verschiedene Funktionen (z. B. Live-Chat, Ausgabe von Biografien, Hochladen von Bildern usw.).
  • Produktion: Das Modell wird kategorisiert und in geeignete Produktionsumgebungen gestellt
    • Inhalte mit hohem Volumen: Schnelle Antwort sind erforderlich (Nachrichtenübermittlung usw.) – APIs werden eingesetzt, Berechnungen werden auf GPUs durchgeführt.

  

    • Inhalte mit niedrigem Volumen: Es wird mehr Verarbeitungszeit benötigt (Untersuchung eines toxischen Benutzers, mehr Kontext erforderlich usw.) – Redis-Warteschlangen, trainiertes und eingesetztes Lernfeedback verwenden. Verwenden Sie ein intelligentes, überwachtes Lernmodell.

  

Aktives Lernen in überwachtes Lernen integrieren

„Der vordere Teil der Architektur besteht aus trainierten Modellen“, sagt Benichoux, „und dann gibt es einen großen Backend-Teil. Das Team trainiert hauptsächlich Modelle und setzt sie ein. Es handelt sich also um überwachtes Lernen, aber im Großen und Ganzen versuchen wir, aktives Lernen in überwachtes Lernen zu integrieren. Wir verwenden also menschliche Moderation – alles, was wir bekommen können, auch wenn Versuch und Änderung viel Zeit in Anspruch nehmen –, aber so sehen sie aus, und wir bekommen menschliche Berichte. Manche Looks können sogar Wochen dauern. Auf diese Weise haben wir eine langsame, aber stetige Verbesserung beim Einsatz unseres Algorithmus für überwachtes Lernen erreicht.“

Das Ergebnis

Die Textmoderationsarchitektur von Yubo wurde erst vor zwei Jahren entwickelt und ist bereits jetzt eines der intelligentesten Systeme, die es gibt. Neben anderen Initiativen kooperiert Yubo mit dem National Center for Missing & Exploited Children (NCMEC), einer amerikanischen Nichtregierungsorganisation, die sich der Suche nach vermissten Kindern widmet, indem es Daten mit der Organisation austauscht, wenn ein Verdacht auf illegale Aktivitäten mit Minderjährigen besteht.

Neben den technischen Ressourcen, die die Sicherheit der Nutzer garantieren, wird Yubo auch von einem Sicherheitsgremium unterstützt, der sich aus den besten internationalen Experten zusammensetzt. Das Gremium (mit Experten von Thorn und Interpol) trifft sich mehrmals im Jahr, um das Programm der Produktmerkmale durchzugehen und die bestehenden Sicherheitsvorkehrungen zu überprüfen.

EJeden Tag werden die Algorithmen intelligenter, und die Nutzerbasis (und die Infrastruktur) von Yubo wächst. Das Team hält die Dinge stabil und einfach, während es jeden Tag Tausende von neuen Nutzern sicher verbindet – ein Beweis dafür, dass die Sicherheit nicht der Skalierbarkeit geopfert werden muss.

Die Zukunft

Yubo hat die Fähigkeit, exponentiell zu expandieren – jetzt besteht der nächste Schritt darin, schnell genug talentierte Mitarbeiter anzuwerben, um das wachsende Unternehmen zu unterstützen. Und mit einer horizontal skalierbaren Architektur mit innovativen KI-Systemen, die von dedizierten Leaseweb-Servern betrieben werden, wird Yubo noch viele Talente benötigen.


Was ist das nächste Ziel? Die Weltherrschaft.