Google veröffentlichte kürzlich einen Blogbeitrag zum Thema Sicherheit, in dem eine der größten Sicherheitsverbesserungen des Gmail-Spamfilters der letzten Jahre vorgestellt wird. Es handelt sich um ein neues Textklassifizierungssystem namens Resilient and Efficient Text Vectorization (RETVec). Laut Google hilft es, die Relevanz und Spezifität von Texten zu verstehen. Dies betrifft E-Mails mit Sonderzeichen, Emojis, Rechtschreibfehlern und anderen unerwünschten Elementen, die zwar für Menschen lesbar, aber für Maschinen schwer zu erfassen waren. Bisher konnten Spam-Nachrichten mit Sonderzeichen die Gmail-Sicherheitsvorkehrungen problemlos umgehen.
Während ein Spamfilter wahrscheinlich eine E-Mail mit dem Inhalt „Herzlichen Glückwunsch! Ihrem Jackpot-Konto wurden 1.000 Dollar gutgeschrieben“ aussortieren würde, fallen die meisten Buchstaben in dieser E-Mail in die unendlichen Tiefen des Unicode-Standards, wo Benutzer Zeichen finden können, die aussehen, als wären sie Teil des regulären lateinischen Alphabets.
Google zufolge ist RETVec so trainiert, dass es robust gegenüber Operationen auf Zeichenebene ist, darunter Einfügungen, Löschungen, Rechtschreibfehler, Homonyme, LEET-Ersetzungen und mehr. Das RETVec-Modell wurde mit einer neuen Zeichenkodierung trainiert, die alle Zeichen und Wörter des UTF-8-Zeichensatzes effizient kodieren kann. Dadurch übertrifft RETVec über 100 Sprachen, ohne dass Nachschlagetabellen oder feste Vokabulargrößen erforderlich sind.
Dank RETVec kann Gmail Spam jetzt besser erkennen und filtern.
Google zufolge ist der Unterschied enorm. Methoden, die mit festen Vokabulargrößen oder Nachschlagetabellen für Homonyme arbeiten, sind ressourcenintensiv. RETVec hingegen benötigt nur 200.000 Parameter statt Millionen. Obwohl Googles Cloud-Plattform zur Spamfilterung also umfangreich ist, kann sie lokal ausgeführt werden. RETVec ist Open Source, und Google hofft, damit Homonymie-Angriffe zu eliminieren.
RETVec funktioniert ähnlich wie TensorFlow-Modelle für maschinelles Lernen. Es nutzt visuelle Ähnlichkeit, um die Bedeutung von Wörtern anstatt ihres tatsächlichen Inhalts zu bestimmen. Dieser Ansatz hat zu deutlichen Verbesserungen geführt: Laut Google steigerte der Austausch des Gmail-Spam-Klassifikators durch RETVec die Spam-Erkennungsrate um 38 % gegenüber dem Ausgangswert und reduzierte die Anzahl falsch-positiver Ergebnisse um 19,4 %. Durch den Einsatz von RETVec sank die TPU-Auslastung des Modells um 83 %, was die Einführung von RETVec zu einem der größten Upgrades der letzten Jahre macht. Das Unternehmen testete RETVec im vergangenen Jahr intern und hat es nun für alle Gmail-Nutzerkonten freigegeben.
Quellenlink






Kommentar (0)