Gmail krijgt grootste spamfilterupgrade in jaren

Google publiceerde onlangs een blogpost over beveiliging waarin het een van de grootste beveiligingsupgrades van Gmail's spamfilter van de afgelopen jaren beschrijft. Het gaat om een nieuw tekstclassificatiesysteem genaamd Resilient and Efficient Text Vectorization (RETVec). Google zegt dat het de relevantie en specificiteit van tekst kan helpen begrijpen. Het gaat om e-mails vol speciale tekens, emoji's, spelfouten en andere ongewenste e-mails die voorheen door mensen konden worden gelezen, maar niet gemakkelijk door machines konden worden begrepen. Voorheen glipten spamberichten vol speciale tekens gemakkelijk door de verdediging van Gmail.

Hoewel elk spamfilter waarschijnlijk een e-mail met de tekst "Gefeliciteerd! Er is een saldo van $ 1.000 aan uw jackpotrekening toegevoegd" zou verwijderen, gaat de overgrote meerderheid van de letters in de e-mail de eindeloze diepten van de Unicode-standaard in, waar gebruikers tekens kunnen aantreffen die lijken op het reguliere Latijnse alfabet.

Volgens Google is RETVec getraind om bestand te zijn tegen bewerkingen op tekenniveau, waaronder invoegingen, verwijderingen, spelfouten, homoniemen, LEET-substituties en meer. Het RETVec-model is getraind op een nieuwe tekencodering die alle tekens en woorden in de UTF-8-set efficiënt kan coderen. Hierdoor presteert RETVec beter dan meer dan 100 talen zonder dat er opzoektabellen of vaste vocabulairegroottes nodig zijn.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — Dankzij RETVec kan Gmail spam nu beter herkennen en filteren

Volgens Google is het verschil dramatisch. Methoden die vaste vocabulairegroottes of opzoektabellen voor homoniemen gebruiken, zijn resource-intensief. RETVec daarentegen heeft slechts 200.000 parameters in plaats van miljoenen, dus hoewel Googles spamfilterplatform in de cloud groot is, kan het op een lokale machine draaien. RETVec is open source en Google hoopt hiermee homoniemaanvallen te elimineren.

RETVec werkt op een vergelijkbare manier als TensorFlow machine learning-modellen, die visuele gelijkenis gebruiken om de betekenis van woorden te bepalen in plaats van de daadwerkelijke inhoud van de tekens. Deze aanpak heeft geleid tot grote verbeteringen. Google meldt bijvoorbeeld dat het vervangen van de spamclassificatie van Gmail door RETVec de spamdetectiepercentages met 38% verbeterde ten opzichte van de basislijn en het aantal foutpositieve resultaten met 19,4% verminderde. Het gebruik van RETVec verminderde het TPU-gebruik van het model met 83%, waardoor de uitrol van RETVec een van de grootste upgrades van de afgelopen jaren is. Het bedrijf heeft RETVec het afgelopen jaar intern getest en uitgerold naar alle Gmail-accounts van gebruikers.

Bronlink