Google a récemment publié un article de blog sur la sécurité détaillant le filtre anti-spam de Gmail, que la société considère comme l'une de ses plus grandes mises à niveau de défense de ces dernières années. Il s'agit d'un nouveau système de classification de texte appelé générateur de vecteurs de texte flexible et efficace (RETVec). Google affirme que cela peut aider à comprendre la pertinence et la spécificité du texte, qui sont des e-mails remplis de caractères spéciaux, d'émojis, de fautes d'orthographe et de courriers indésirables qui étaient auparavant lisibles par les humains mais pas facilement compris par les machines. Auparavant, les messages de spam contenant des caractères spéciaux contournaient facilement les défenses de Gmail.
Même si n'importe quel filtre anti-spam peut éliminer un e-mail indiquant : « Félicitations ! Un solde de 1 000 $ est disponible pour votre compte jackpot », la grande majorité des lettres de cet e-mail sont cryptées dans les profondeurs de la norme Unicode, où les utilisateurs peuvent trouver des caractères qui semblent appartenir à l'alphabet latin classique.
Google affirme que la technologie RETVec est conçue pour être résiliente aux opérations au niveau des caractères, notamment les insertions, les suppressions, les fautes d'orthographe, les homonymes, les substitutions LEET, etc. Le modèle RETVec est formé sur un nouvel encodage de caractères qui peut encoder efficacement tous les caractères et mots de l'ensemble UTF-8. En conséquence, RETVec fonctionne exceptionnellement bien dans plus de 100 langues sans avoir besoin de tables de recherche ou de tailles de vocabulaire fixes.
Grâce à RETVec, Gmail peut désormais mieux reconnaître et filtrer les spams
Google affirme que les performances ont radicalement changé. Les méthodes qui utilisent des tailles de vocabulaire fixes ou des tables de recherche d’homonymes nécessitent beaucoup de ressources. Pendant ce temps, RETVec ne dispose que de 200 000 paramètres au lieu de millions, donc même si la plate-forme cloud de filtrage du spam de Google est suffisamment grande, elle peut fonctionner sur un appareil local. RETVec est open source et Google espère qu'il éliminera les attaques utilisant des glyphes homonymes.
RETVec fonctionne de manière similaire à la façon dont les modèles d’apprentissage automatique TensorFlow utilisent la similarité visuelle pour déterminer le sens des mots au lieu de leur contenu réel en caractères. Cette approche a conduit à des améliorations majeures, Google affirmant que le remplacement du classificateur de spam de Gmail par RETVec a amélioré les taux de détection de spam par rapport à la référence de 38 % et réduit les faux positifs de 19,4 %. L'utilisation de RETVec a réduit l'utilisation du TPU du modèle de 83 %, faisant de l'implémentation de RETVec l'une des plus grandes mises à niveau de ces dernières années. L'entreprise teste RETVec en interne depuis un an et l'a déployé sur tous les comptes Gmail des utilisateurs.
Lien source
Comment (0)