جیمیل بزرگترین به‌روزرسانی فیلتر اسپم را در سال‌های اخیر دریافت کرد

گوگل اخیراً یک پست وبلاگ امنیتی منتشر کرده است که جزئیاتی از آنچه که آن را یکی از بزرگترین ارتقاءهای دفاعی فیلتر اسپم جیمیل در سال‌های اخیر می‌نامد، ارائه می‌دهد. این یک سیستم طبقه‌بندی متن جدید به نام بردارسازی متن مقاوم و کارآمد (RETVec) است. گوگل می‌گوید که این سیستم می‌تواند به درک ارتباط و خاص بودن متن کمک کند، یعنی ایمیل‌هایی که پر از کاراکترهای خاص، ایموجی‌ها، غلط‌های املایی و سایر موارد ناخواسته هستند که قبلاً توسط انسان‌ها قابل خواندن بودند اما به راحتی توسط ماشین‌ها قابل درک نبودند. پیش از این، پیام‌های اسپم پر از کاراکترهای خاص به راحتی از سد دفاعی جیمیل عبور می‌کردند.

در حالی که هر فیلتر اسپمی احتمالاً ایمیلی با این مضمون را حذف می‌کند: «تبریک! موجودی ۱۰۰۰ دلاری به حساب جایزه بزرگ شما اضافه شد»، اکثریت قریب به اتفاق حروف موجود در ایمیل به اعماق بی‌پایان استاندارد یونیکد می‌روند، جایی که کاربران ممکن است کاراکترهایی را پیدا کنند که به نظر می‌رسد بخشی از الفبای لاتین معمولی هستند.

گوگل می‌گوید RETVec طوری آموزش دیده است که در برابر عملیات سطح کاراکتر از جمله درج، حذف، غلط املایی، هم‌آوایی، جایگزینی LEET و موارد دیگر مقاوم باشد. مدل RETVec بر اساس یک کدگذاری کاراکتر جدید آموزش دیده است که می‌تواند به طور موثر تمام کاراکترها و کلمات موجود در مجموعه UTF-8 را کدگذاری کند. در نتیجه، RETVec بدون نیاز به جداول جستجو یا اندازه‌های ثابت واژگان، بیش از ۱۰۰ زبان را پشت سر می‌گذارد.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — به لطف RETVec، جیمیل اکنون می‌تواند هرزنامه‌ها را بهتر تشخیص داده و فیلتر کند.

گوگل می‌گوید این تفاوت چشمگیر است. روش‌هایی که از اندازه‌های ثابت واژگان یا جداول جستجو برای کلمات هم‌نام استفاده می‌کنند، منابع زیادی مصرف می‌کنند. از سوی دیگر، RETVec به جای میلیون‌ها پارامتر، تنها ۲۰۰۰۰۰ پارامتر دارد، بنابراین اگرچه پلتفرم ابری فیلترینگ هرزنامه گوگل بزرگ است، اما می‌تواند روی یک دستگاه محلی اجرا شود. RETVec متن‌باز است و گوگل امیدوار است که حملات کلمات هم‌نام را از بین ببرد.

RETVec به روشی مشابه مدل‌های یادگیری ماشین TensorFlow کار می‌کند که از شباهت بصری برای تعیین معنای کلمات به جای محتوای واقعی کاراکتر آنها استفاده می‌کنند. این رویکرد منجر به پیشرفت‌های بزرگی شده است، به طوری که گوگل می‌گوید جایگزینی طبقه‌بندی‌کننده هرزنامه Gmail با RETVec، نرخ تشخیص هرزنامه را ۳۸٪ نسبت به حالت پایه بهبود بخشیده و موارد مثبت کاذب را ۱۹.۴٪ کاهش داده است. استفاده از RETVec، استفاده از TPU مدل را ۸۳٪ کاهش داده است و راه‌اندازی RETVec را به یکی از بزرگترین به‌روزرسانی‌ها در سال‌های اخیر تبدیل کرده است. این شرکت در طول سال گذشته RETVec را به صورت داخلی آزمایش کرده و آن را برای همه حساب‌های Gmail کاربران راه‌اندازی کرده است.

لینک منبع