Нещодавно Google опублікував допис у блозі про безпеку, в якому детально описує те, що, на його думку, є одним із найбільших оновлень захисту спам-фільтра Gmail за останні роки. Йдеться про нову систему класифікації тексту під назвою «Стійка та ефективна векторизація тексту» (RETVec). Google стверджує, що вона може допомогти зрозуміти релевантність та специфічність тексту, тобто електронних листів, наповнених спеціальними символами, емодзі, орфографічними помилками та іншим небажаним вмістом, який раніше був читабельним для людей, але нелегко розумівся машинами. Раніше спам-повідомлення, наповнені спеціальними символами, легко прослизали крізь захист Gmail.
Хоча будь-який спам-фільтр, ймовірно, відсеє електронний лист зі словом «Вітаємо! На ваш рахунок джекпоту додано 1000 доларів», переважна більшість літер у цьому листі йдуть у безмежні глибини стандарту Unicode, де користувачі можуть знайти символи, які виглядають так, ніби є частиною звичайного латинського алфавіту.
Google стверджує, що RETVec навчений бути стійким до операцій на рівні символів, включаючи вставки, видалення, орфографічні помилки, омоніми, заміни LEET тощо. Модель RETVec навчена на новому кодуванні символів, яке може ефективно кодувати всі символи та слова в наборі UTF-8. В результаті RETVec перевершує понад 100 мов без необхідності таблиць пошуку або фіксованих розмірів словника.
Завдяки RETVec Gmail тепер може краще розпізнавати та фільтрувати спам
Google стверджує, що різниця разюча. Методи, що використовують фіксовані розміри словника або таблиці пошуку омонімів, є ресурсомісткими. RETVec, з іншого боку, має лише 200 000 параметрів замість мільйонів, тому, хоча хмарна платформа Google для фільтрації спаму є великою, вона може працювати на локальному комп'ютері. RETVec має відкритий вихідний код, і Google сподівається, що він усуне атаки на омоніми.
RETVec працює подібно до моделей машинного навчання TensorFlow, які використовують візуальну схожість для визначення значення слів, а не їхнього фактичного змісту символів. Такий підхід призвів до значних покращень, і Google стверджує, що заміна класифікатора спаму Gmail на RETVec покращила показники виявлення спаму на 38% порівняно з базовим рівнем і зменшила кількість хибних спрацьовувань на 19,4%. Використання RETVec зменшило використання TPU моделі на 83%, що робить впровадження RETVec одним з найбільших оновлень за останні роки. Компанія тестувала RETVec внутрішньо протягом минулого року та впровадила його для всіх облікових записів користувачів Gmail.
Посилання на джерело
Коментар (0)