Google a récemment publié un article sur son blog de sécurité détaillant ce qu'il considère comme l'une des plus importantes améliorations apportées au filtre anti-spam de Gmail ces dernières années. Il s'agit d'un nouveau système de classification de texte appelé RETVec (Resilient and Efficient Text Vectorization). Google explique que ce système permet de mieux comprendre la pertinence et la spécificité du texte, notamment dans les e-mails contenant des caractères spéciaux, des émojis, des fautes d'orthographe et autres éléments indésirables, auparavant lisibles par les humains mais difficiles à interpréter par les machines. Auparavant, les spams contenant des caractères spéciaux passaient facilement à travers les défenses de Gmail.
Bien que n'importe quel filtre anti-spam éliminerait probablement un courriel indiquant « Félicitations ! Un solde de 1 000 $ a été ajouté à votre compte jackpot », la grande majorité des lettres de ce courriel se perdent dans les profondeurs infinies de la norme Unicode, où les utilisateurs peuvent trouver des caractères qui ressemblent à ceux de l'alphabet latin standard.
Google affirme que RETVec est conçu pour résister aux opérations au niveau des caractères, notamment les insertions, les suppressions, les fautes d'orthographe, les homonymes, les substitutions LEET, etc. Le modèle RETVec est entraîné sur un nouvel encodage de caractères capable d'encoder efficacement tous les caractères et mots de l'ensemble UTF-8. De ce fait, RETVec surpasse plus de 100 langues sans nécessiter de tables de correspondance ni de vocabulaire de taille fixe.
Grâce à RETVec, Gmail peut désormais mieux identifier et filtrer les spams.
Google affirme que la différence est considérable. Les méthodes utilisant des vocabulaires de taille fixe ou des tables de correspondance pour les homonymes sont gourmandes en ressources. RETVec, en revanche, ne compte que 200 000 paramètres au lieu de millions. Ainsi, bien que la plateforme cloud de filtrage anti-spam de Google soit volumineuse, elle peut être exécutée sur un ordinateur local. RETVec est un logiciel libre, et Google espère qu'il permettra d'éliminer les attaques par homonymie.
RETVec fonctionne de manière similaire aux modèles d'apprentissage automatique TensorFlow, qui utilisent la similarité visuelle pour déterminer le sens des mots plutôt que leur contenu textuel. Cette approche a permis d'obtenir des résultats significatifs : Google affirme que le remplacement du système anti-spam de Gmail par RETVec a amélioré le taux de détection des spams de 38 % par rapport à la situation initiale et réduit les faux positifs de 19,4 %. L'utilisation de RETVec a permis de réduire de 83 % la consommation de TPU du modèle, faisant de son déploiement l'une des mises à jour les plus importantes de ces dernières années. L'entreprise a testé RETVec en interne pendant un an avant de le déployer sur tous les comptes Gmail des utilisateurs.
Lien source






Comment (0)