Gmail primește cea mai mare actualizare a filtrului de spam din ultimii ani

Google a publicat recent o postare pe blogul său despre securitate, în care detaliază ceea ce numește una dintre cele mai mari îmbunătățiri de apărare ale filtrului de spam din Gmail din ultimii ani. Este vorba de un nou sistem de clasificare a textului numit Vectorizare Text Rezistentă și Eficientă (RETVec). Google spune că acesta poate ajuta la înțelegerea relevanței și specificității textului, adică a e-mailurilor pline de caractere speciale, emoji-uri, greșeli de ortografie și alte mesaje nedorite care anterior puteau fi citite de oameni, dar nu erau ușor de înțeles de mașini. Anterior, mesajele spam pline de caractere speciale treceau cu ușurință prin apărarea Gmail.

Deși orice filtru de spam ar elimina probabil un e-mail care spune „Felicitări! Un sold de 1.000 USD a fost adăugat în contul dvs. jackpot”, marea majoritate a literelor din e-mail intră în adâncurile nesfârșite ale standardului Unicode, unde utilizatorii pot găsi caractere care par să facă parte din alfabetul latin obișnuit.

Google afirmă că RETVec este antrenat să fie rezistent la operațiuni la nivel de caracter, inclusiv inserții, ștergeri, greșeli de ortografie, omonime, substituții LEET și multe altele. Modelul RETVec este antrenat pe o nouă codificare de caractere care poate codifica eficient toate caracterele și cuvintele din setul UTF-8. Drept urmare, RETVec depășește peste 100 de limbi fără a necesita tabele de căutare sau dimensiuni fixe ale vocabularului.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — Datorită RETVec, Gmail poate acum să recunoască și să filtreze mai bine spamul

Google spune că diferența este dramatică. Metodele care utilizează dimensiuni fixe ale vocabularului sau tabele de căutare pentru omonime necesită resurse intensive. RETVec, pe de altă parte, are doar 200.000 de parametri în loc de milioane, așa că, deși platforma cloud de filtrare a spamului de la Google este mare, aceasta poate rula pe o mașină locală. RETVec este open source, iar Google speră că va elimina atacurile omonime.

RETVec funcționează într-un mod similar cu modelele de învățare automată TensorFlow, care utilizează similaritatea vizuală pentru a determina sensul cuvintelor, mai degrabă decât conținutul lor real. Această abordare a dus la îmbunătățiri majore, Google afirmând că înlocuirea clasificatorului de spam din Gmail cu RETVec a îmbunătățit ratele de detectare a spamului cu 38% față de valoarea inițială și a redus numărul de fals pozitive cu 19,4%. Utilizarea RETVec a redus utilizarea TPU a modelului cu 83%, ceea ce face ca implementarea RETVec să fie una dintre cele mai mari îmbunătățiri din ultimii ani. Compania a testat RETVec intern în ultimul an și l-a implementat în toate conturile Gmail ale utilizatorilor.

Legătură sursă