Недавно Google опубликовала запись в блоге по безопасности, в которой подробно описывается одно из самых значительных обновлений защиты спам-фильтра Gmail за последние годы. Речь идёт о новой системе классификации текста под названием Resilient and Efficient Text Vectorization (RETVec). Google утверждает, что она помогает оценить релевантность и специфичность текста, то есть электронных писем, наполненных спецсимволами, эмодзи, орфографическими ошибками и другим мусором, который раньше мог прочитать человек, но не понимала машина. Ранее спам-сообщения, содержащие спецсимволы, легко обходили защиту Gmail.
Хотя любой спам-фильтр, скорее всего, отсеет письмо с текстом «Поздравляем! На ваш счёт джекпота добавлена 1000 долларов», подавляющее большинство букв в этом письме уходят в бесконечные дебри стандарта Unicode, где пользователи могут обнаружить символы, которые выглядят как часть обычного латинского алфавита.
По данным Google, RETVec обучен устойчиво работать с операциями на уровне символов, включая вставки, удаления, орфографические ошибки, омонимы, замены LEET и многое другое. Модель RETVec обучена на новой кодировке символов, которая позволяет эффективно кодировать все символы и слова в кодировке UTF-8. В результате RETVec превосходит более 100 языков, не требуя таблиц поиска или фиксированного размера словаря.
Благодаря RETVec Gmail теперь может лучше распознавать и фильтровать спам
Google утверждает, что разница колоссальная. Методы, использующие фиксированный размер словаря или таблицы поиска омонимов, требуют больших ресурсов. RETVec, с другой стороны, имеет всего 200 000 параметров вместо миллионов, поэтому, несмотря на большой объём облачной платформы фильтрации спама Google, она может работать на локальном компьютере. RETVec — это ПО с открытым исходным кодом, и Google надеется, что оно позволит предотвратить атаки с использованием омонимов.
RETVec работает аналогично моделям машинного обучения TensorFlow, которые используют визуальное сходство для определения значения слов, а не их фактического содержания. Этот подход привёл к значительным улучшениям: Google сообщает, что замена классификатора спама Gmail на RETVec повысила показатели обнаружения спама на 38% по сравнению с базовым уровнем и сократила ложные срабатывания на 19,4%. Использование RETVec снизило использование TPU модели на 83%, что сделало внедрение RETVec одним из крупнейших обновлений за последние годы. Компания проводила внутреннее тестирование RETVec в течение прошлого года и внедрила его во все учетные записи Gmail.
Ссылка на источник
Комментарий (0)