گوگل اخیراً یک پست وبلاگ امنیتی منتشر کرده است که جزئیاتی از آنچه که آن را یکی از بزرگترین ارتقاءهای دفاعی فیلتر اسپم جیمیل در سالهای اخیر مینامد، ارائه میدهد. این یک سیستم طبقهبندی متن جدید به نام بردارسازی متن مقاوم و کارآمد (RETVec) است. گوگل میگوید که این سیستم میتواند به درک ارتباط و خاص بودن متن کمک کند، یعنی ایمیلهایی که پر از کاراکترهای خاص، ایموجیها، غلطهای املایی و سایر موارد ناخواسته هستند که قبلاً توسط انسانها قابل خواندن بودند اما به راحتی توسط ماشینها قابل درک نبودند. پیش از این، پیامهای اسپم پر از کاراکترهای خاص به راحتی از سد دفاعی جیمیل عبور میکردند.
در حالی که هر فیلتر اسپمی احتمالاً ایمیلی با این مضمون را حذف میکند: «تبریک! موجودی ۱۰۰۰ دلاری به حساب جایزه بزرگ شما اضافه شد»، اکثریت قریب به اتفاق حروف موجود در ایمیل به اعماق بیپایان استاندارد یونیکد میروند، جایی که کاربران ممکن است کاراکترهایی را پیدا کنند که به نظر میرسد بخشی از الفبای لاتین معمولی هستند.
گوگل میگوید RETVec طوری آموزش دیده است که در برابر عملیات سطح کاراکتر از جمله درج، حذف، غلط املایی، همآوایی، جایگزینی LEET و موارد دیگر مقاوم باشد. مدل RETVec بر اساس یک کدگذاری کاراکتر جدید آموزش دیده است که میتواند به طور موثر تمام کاراکترها و کلمات موجود در مجموعه UTF-8 را کدگذاری کند. در نتیجه، RETVec بدون نیاز به جداول جستجو یا اندازههای ثابت واژگان، بیش از ۱۰۰ زبان را پشت سر میگذارد.
به لطف RETVec، جیمیل اکنون میتواند هرزنامهها را بهتر تشخیص داده و فیلتر کند.
گوگل میگوید این تفاوت چشمگیر است. روشهایی که از اندازههای ثابت واژگان یا جداول جستجو برای کلمات همنام استفاده میکنند، منابع زیادی مصرف میکنند. از سوی دیگر، RETVec به جای میلیونها پارامتر، تنها ۲۰۰۰۰۰ پارامتر دارد، بنابراین اگرچه پلتفرم ابری فیلترینگ هرزنامه گوگل بزرگ است، اما میتواند روی یک دستگاه محلی اجرا شود. RETVec متنباز است و گوگل امیدوار است که حملات کلمات همنام را از بین ببرد.
RETVec به روشی مشابه مدلهای یادگیری ماشین TensorFlow کار میکند که از شباهت بصری برای تعیین معنای کلمات به جای محتوای واقعی کاراکتر آنها استفاده میکنند. این رویکرد منجر به پیشرفتهای بزرگی شده است، به طوری که گوگل میگوید جایگزینی طبقهبندیکننده هرزنامه Gmail با RETVec، نرخ تشخیص هرزنامه را ۳۸٪ نسبت به حالت پایه بهبود بخشیده و موارد مثبت کاذب را ۱۹.۴٪ کاهش داده است. استفاده از RETVec، استفاده از TPU مدل را ۸۳٪ کاهش داده است و راهاندازی RETVec را به یکی از بزرگترین بهروزرسانیها در سالهای اخیر تبدیل کرده است. این شرکت در طول سال گذشته RETVec را به صورت داخلی آزمایش کرده و آن را برای همه حسابهای Gmail کاربران راهاندازی کرده است.
لینک منبع
نظر (0)