Google publiserte nylig et sikkerhetsblogginnlegg som beskriver det de kaller en av de største forsvarsoppgraderingene til Gmails spamfilter de siste årene. Det er et nytt tekstklassifiseringssystem kalt Resilient and Efficient Text Vectorization (RETVec). Google sier at det kan bidra til å forstå relevansen og spesifisiteten til tekst, som er e-poster fylt med spesialtegn, emojier, stavefeil og annet søppel som tidligere var lesbart for mennesker, men ikke lett forstått av maskiner. Tidligere slapp spammeldinger fylt med spesialtegn lett gjennom Gmails forsvar.
Selv om et hvilket som helst spamfilter sannsynligvis ville eliminert en e-post som lyder: «Gratulerer! En saldo på 1000 dollar er lagt til jackpotkontoen din», går de aller fleste bokstavene i e-posten inn i de endeløse dypene av Unicode-standarden, hvor brukere kan finne tegn som ser ut som de er en del av det vanlige latinske alfabetet.
Google sier at RETVec er trent til å være robust mot tegnnivåoperasjoner, inkludert innsettinger, slettinger, feilstavinger, homonymer, LEET-substitusjoner og mer. RETVec-modellen er trent på en ny tegnkoding som effektivt kan kode alle tegn og ord i UTF-8-settet. Som et resultat overgår RETVec over 100 språk uten å kreve oppslagstabeller eller faste vokabularstørrelser.
Takket være RETVec kan Gmail nå bedre gjenkjenne og filtrere spam
Google sier at forskjellen er dramatisk. Metoder som bruker faste vokabularstørrelser eller oppslagstabeller for homonymer er ressurskrevende. RETVec, derimot, har bare 200 000 parametere i stedet for millioner, så selv om Googles spamfiltreringsplattform i skyen er stor, kan den kjøres på en lokal maskin. RETVec er åpen kildekode, og Google håper at det vil eliminere homonymangrep.
RETVec fungerer på en lignende måte som TensorFlow maskinlæringsmodeller, som bruker visuell likhet for å bestemme betydningen av ord i stedet for deres faktiske tegninnhold. Denne tilnærmingen har ført til store forbedringer. Google sier at det å erstatte Gmails spamklassifisering med RETVec forbedret spamdeteksjonsratene med 38 % i forhold til grunnlinjen og reduserte falske positiver med 19,4 %. Bruk av RETVec reduserte modellens TPU-bruk med 83 %, noe som gjør RETVec-utrullingen til en av de største oppgraderingene de siste årene. Selskapet har testet RETVec internt det siste året og har rullet det ut til alle brukernes Gmail-kontoer.
[annonse_2]
Kildekobling
Kommentar (0)