Gmail se dočkal největší aktualizace spamového filtru za poslední roky

Google nedávno zveřejnil blogový příspěvek o bezpečnosti, v němž podrobně popisuje, co nazývá jedním z největších vylepšení ochrany spamového filtru Gmailu za poslední roky. Jde o nový systém klasifikace textu s názvem Resilient and Efficient Text Vectorization (RETVec). Google tvrdí, že může pomoci pochopit relevanci a specifičnost textu, což jsou e-maily plné speciálních znaků, emoji, pravopisných chyb a dalšího nesmyslu, který dříve slyšeli lidé, ale stroje mu nerozuměly. Dříve spamové zprávy plné speciálních znaků snadno proklouzly obranou Gmailu.

Zatímco jakýkoli spamový filtr by pravděpodobně zablokoval e-mail s textem „Gratuluji! Na váš jackpotový účet byl přidán zůstatek 1 000 dolarů“, drtivá většina písmen v e-mailu směřuje do nekonečných hlubin standardu Unicode, kde uživatelé mohou najít znaky, které vypadají, jako by byly součástí běžné latinské abecedy.

Google uvádí, že RETVec je trénován tak, aby byl odolný vůči operacím na úrovni znaků, včetně vkládání, mazání, pravopisných chyb, homonym, substitucí LEET a dalších. Model RETVec je trénován na novém kódování znaků, které dokáže efektivně kódovat všechny znaky a slova v sadě UTF-8. Díky tomu RETVec překonává více než 100 jazyků bez nutnosti vyhledávacích tabulek nebo pevně stanovených velikostí slovní zásoby.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — Díky RETVec nyní Gmail dokáže lépe rozpoznávat a filtrovat spam

Google uvádí, že rozdíl je dramatický. Metody, které používají pevně danou velikost slovní zásoby nebo vyhledávací tabulky pro homonyma, jsou náročné na zdroje. RETVec má na druhou stranu pouze 200 000 parametrů místo milionů, takže i když je cloudová platforma Googlu pro filtrování spamu rozsáhlá, může běžet na lokálním počítači. RETVec je open source a Google doufá, že eliminuje útoky homonym.

RETVec funguje podobně jako modely strojového učení TensorFlow, které k určení významu slov používají vizuální podobnost, nikoli jejich skutečného obsahu znaků. Tento přístup vedl k velkým zlepšením. Google uvedl, že nahrazení klasifikátoru spamu v Gmailu technologií RETVec zlepšilo míru detekce spamu o 38 % oproti výchozímu stavu a snížilo počet falešně pozitivních výsledků o 19,4 %. Použití RETVec snížilo využití TPU modelu o 83 %, což z implementace RETVec činí jednu z největších aktualizací v posledních letech. Společnost RETVec interně testovala v uplynulém roce a nasadila jej na všechny uživatelské účty Gmail.

Zdrojový odkaz