Google opublikował niedawno wpis na blogu poświęcony bezpieczeństwu, w którym szczegółowo opisuje jedną z największych modernizacji filtra antyspamowego Gmaila w ostatnich latach. Chodzi o nowy system klasyfikacji tekstu o nazwie Resilient and Efficient Text Vectorization (RETVec). Google twierdzi, że może on pomóc w zrozumieniu istotności i specyfiki tekstu, czyli wiadomości e-mail wypełnionych znakami specjalnymi, emotikonami, błędami ortograficznymi i innymi śmieciami, które wcześniej były czytelne dla ludzi, ale niełatwe do zrozumienia przez maszyny. Wcześniej wiadomości spamowe wypełnione znakami specjalnymi z łatwością przemykały przez zabezpieczenia Gmaila.
Choć każdy filtr antyspamowy prawdopodobnie odrzuciłby wiadomość e-mail o treści: „Gratulacje! Saldo w wysokości 1000 USD zostało dodane do Twojego konta jackpot”, zdecydowana większość liter w tej wiadomości trafia w nieskończone głębiny standardu Unicode, gdzie użytkownicy mogą znaleźć znaki wyglądające jak część zwykłego alfabetu łacińskiego.
Google twierdzi, że RETVec jest trenowany tak, aby był odporny na operacje na poziomie znaków, takie jak wstawianie, usuwanie, błędy ortograficzne, homonimy, podstawienia LEET i inne. Model RETVec jest trenowany w oparciu o nowe kodowanie znaków, które umożliwia efektywne kodowanie wszystkich znaków i słów w zestawie UTF-8. W rezultacie RETVec przewyższa ponad 100 języków bez konieczności korzystania z tablic wyszukiwania ani stałych rozmiarów słownika.
Dzięki RETVec Gmail może teraz lepiej rozpoznawać i filtrować spam
Google twierdzi, że różnica jest znacząca. Metody wykorzystujące stałe rozmiary słownika lub tablice wyszukiwania homonimów są zasobochłonne. Z drugiej strony, RETVec ma tylko 200 000 parametrów zamiast milionów, więc chociaż chmurowa platforma filtrowania spamu Google jest duża, może działać na komputerze lokalnym. RETVec jest oprogramowaniem typu open source i Google ma nadzieję, że wyeliminuje ataki na homonimy.
RETVec działa podobnie do modeli uczenia maszynowego TensorFlow, które wykorzystują podobieństwo wizualne do określania znaczenia słów, a nie ich faktycznej zawartości. To podejście przyniosło znaczące usprawnienia, a Google twierdzi, że zastąpienie klasyfikatora spamu Gmaila przez RETVec poprawiło wskaźniki wykrywania spamu o 38% w porównaniu z wartością bazową i zmniejszyło liczbę fałszywych trafień o 19,4%. Zastosowanie RETVec zmniejszyło wykorzystanie TPU przez model o 83%, co czyni wdrożenie RETVec jednym z największych ulepszeń w ostatnich latach. Firma testowała RETVec wewnętrznie przez ostatni rok i wdrożyła go na wszystkich kontach Gmail użytkowników.
Link źródłowy
Komentarz (0)