Google a récemment publié un article de blog consacré à la sécurité, détaillant ce qu'il considère comme l'une des plus importantes améliorations apportées au filtre anti-spam de Gmail ces dernières années. Il s'agit d'un nouveau système de classification de texte appelé Vectorisation de texte résiliente et efficace (RETVec). Google affirme qu'il permet de comprendre la pertinence et la spécificité du texte, c'est-à-dire des e-mails remplis de caractères spéciaux, d'émojis, de fautes d'orthographe et d'autres éléments indésirables, auparavant lisibles par les humains, mais difficilement compréhensibles par les machines. Auparavant, les messages de spam contenant des caractères spéciaux contournaient facilement les défenses de Gmail.
Même si n'importe quel filtre anti-spam peut éliminer un e-mail indiquant : « Félicitations ! Un solde de 1 000 $ est disponible pour votre compte jackpot », la grande majorité des lettres de cet e-mail sont cryptées dans les profondeurs de la norme Unicode, où les utilisateurs peuvent trouver des caractères qui semblent appartenir à l'alphabet latin classique.
Google affirme que RETVec est entraîné pour résister aux opérations au niveau des caractères, notamment les insertions, les suppressions, les fautes d'orthographe, les homonymes, les substitutions LEET, etc. Le modèle RETVec est entraîné sur un nouvel encodage de caractères capable d'encoder efficacement tous les caractères et mots de l'ensemble UTF-8. Par conséquent, RETVec offre des performances exceptionnelles dans plus de 100 langues, sans nécessiter de tables de correspondance ni de tailles de vocabulaire fixes.
Grâce à RETVec, Gmail peut désormais mieux reconnaître et filtrer les spams
Google affirme que la différence de performance est considérable. Les méthodes utilisant des tailles de vocabulaire fixes ou des tables de correspondance d'homonymes sont gourmandes en ressources. RETVec, en revanche, ne compte que 200 000 paramètres au lieu de millions. Ainsi, même si la plateforme cloud de filtrage anti-spam de Google est suffisamment puissante, elle peut fonctionner sur une machine locale. RETVec est open source et Google espère qu'il éliminera les attaques d'homonymes.
RETVec fonctionne de manière similaire aux modèles d'apprentissage automatique TensorFlow, qui utilisent la similarité visuelle pour déterminer le sens des mots plutôt que leur contenu textuel. Cette approche a permis d'importantes améliorations : Google affirme que le remplacement du classificateur de spam de Gmail par RETVec a amélioré les taux de détection de spam de 38 % par rapport à la référence et réduit les faux positifs de 19,4 %. L'utilisation de RETVec a permis de réduire l'utilisation de TPU du modèle de 83 %, faisant du déploiement de RETVec l'une des améliorations les plus importantes de ces dernières années. L'entreprise teste RETVec en interne depuis un an et l'a déployé auprès de tous les utilisateurs de Gmail.
Lien source
Comment (0)