Google ha recentemente pubblicato un post sul blog dedicato alla sicurezza che illustra nel dettaglio il filtro antispam di Gmail, definito dall'azienda uno dei più importanti aggiornamenti di sicurezza degli ultimi anni. Si tratta di un nuovo sistema di classificazione del testo chiamato Responsive and Efficient Text Vector Generator (RETVec). Google afferma che questo sistema aiuta a comprendere la pertinenza e le caratteristiche del testo, ovvero le email piene di caratteri speciali, emoji, errori di ortografia e caratteri indesiderati che in precedenza erano leggibili dagli esseri umani ma difficili da interpretare per le macchine. Prima, le email di spam ricche di caratteri speciali eludevano facilmente le difese di Gmail.
Sebbene qualsiasi filtro antispam possa bloccare le email che dicono "Congratulazioni! Un saldo di 1.000 dollari è ora disponibile sul tuo conto jackpot", la stragrande maggioranza delle lettere nell'email si perde nelle profondità infinite dello standard Unicode, dove gli utenti possono trovare caratteri che sembrano far parte del normale alfabeto latino.
Google afferma che la tecnologia RETVec è addestrata per resistere alle manipolazioni a livello di carattere, tra cui inserimento, cancellazione, errori di ortografia, omonimi, sostituzione LEET, ecc. Il modello RETVec è addestrato su un nuovo schema di codifica dei caratteri in grado di codificare in modo efficiente tutti i caratteri e le parole del set UTF-8. Pertanto, RETVec offre prestazioni eccezionali in oltre 100 lingue senza la necessità di tabelle di ricerca o vocabolari di dimensioni fisse.
Grazie a RETVec, Gmail ora è in grado di riconoscere e filtrare lo spam in modo più efficace.
Google afferma che l'efficacia è cambiata radicalmente. I metodi che utilizzano vocabolari di dimensioni fisse o tabelle di ricerca di omofoni richiedono molte risorse. RETVec, d'altro canto, ha solo 200.000 parametri anziché milioni, quindi, pur essendo sufficientemente grande per la piattaforma di filtraggio spam basata sul cloud di Google, può essere eseguita su un dispositivo locale. RETVec è open source e Google spera che possa eliminare gli attacchi basati sugli omofoni.
RETVec funziona in modo simile al modello di machine learning TensorFlow, che utilizza la somiglianza visiva per determinare il significato delle parole anziché il loro effettivo contenuto testuale. Questo approccio ha portato a miglioramenti significativi: Google afferma che la sostituzione del classificatore di spam di Gmail con RETVec ha comportato un miglioramento del 38% nei tassi di rilevamento dello spam rispetto alla configurazione di base e una riduzione del 19,4% dei falsi positivi. L'utilizzo di RETVec ha ridotto del 83% il consumo di TPU del modello, rendendo l'implementazione di RETVec uno dei maggiori aggiornamenti degli ultimi anni. L'azienda ha testato RETVec internamente per tutto l'ultimo anno e lo ha implementato su tutti gli account Gmail degli utenti.
Link alla fonte








Commento (0)