نشرت شركة Google مؤخرًا منشورًا على مدونتها الأمنية يوضح بالتفصيل مرشح البريد العشوائي في Gmail، والذي تصفه الشركة بأنه أحد أكبر ترقيات الدفاع لديها في السنوات الأخيرة. هذا هو نظام تصنيف نصي جديد يسمى مولد متجه النص المرن والفعال (RETVec). وتقول جوجل إن هذا يمكن أن يساعد في فهم أهمية وخصوصية النص، وهي رسائل البريد الإلكتروني المليئة بالأحرف الخاصة والرموز التعبيرية والأخطاء الإملائية والرسائل غير المرغوب فيها والتي كانت في السابق قابلة للقراءة من قبل البشر ولكن لم يكن من السهل على الآلات فهمها. في السابق، كانت رسائل البريد العشوائي المليئة بالأحرف الخاصة قادرة على تجاوز دفاعات Gmail بسهولة.
في حين أن أي مُرشِّح للرسائل غير المرغوب فيها يُمكنه حذف رسالة بريد إلكتروني تقول: "تهانينا! رصيد بقيمة 1000 دولار متاح لحساب الجائزة الكبرى الخاص بك"، إلا أن الغالبية العظمى من الأحرف في الرسالة تتعمق في أعماق معيار يونيكود، حيث يُمكن للمستخدمين العثور على أحرف تبدو وكأنها جزء من الأبجدية اللاتينية العادية.
وتقول جوجل إن تقنية RETVec مدربة لتكون مرنة في مواجهة العمليات على مستوى الأحرف بما في ذلك عمليات الإدراج والحذف والأخطاء الإملائية والكلمات المتجانسة واستبدالات LEET والمزيد. تم تدريب نموذج RETVec على ترميز أحرف جديد يمكنه ترميز جميع الأحرف والكلمات في مجموعة UTF-8 بكفاءة. ونتيجة لذلك، يعمل RETVec بشكل استثنائي عبر أكثر من 100 لغة دون الحاجة إلى جداول بحث أو أحجام ثابتة للمفردات.
بفضل RETVec، أصبح بإمكان Gmail الآن التعرف على الرسائل غير المرغوب فيها وتصفيتها بشكل أفضل
وتقول جوجل إن الأداء تغير بشكل كبير. إن الأساليب التي تستخدم أحجامًا ثابتة من المفردات أو جداول البحث عن الكلمات المتشابهة تتطلب موارد مكثفة. وفي الوقت نفسه، يحتوي RETVec على 200 ألف معلمة فقط بدلاً من الملايين، لذلك على الرغم من أن منصة تصفية البريد العشوائي السحابية الخاصة بشركة Google كبيرة بما يكفي، إلا أنه يمكن تشغيلها على جهاز محلي. RETVec هو برنامج مفتوح المصدر وتأمل Google أن يعمل على القضاء على الهجمات التي تستخدم الرموز المتشابهة.
يعمل RETVec بشكل مشابه للطريقة التي تستخدم بها نماذج التعلم الآلي TensorFlow التشابه البصري لتحديد معنى الكلمات بدلاً من محتوى أحرفها الفعلي. وقد أدى هذا النهج إلى تحسينات كبيرة، حيث ذكرت Google أن استبدال مصنف البريد العشوائي في Gmail بـ RETVec أدى إلى تحسين معدلات اكتشاف البريد العشوائي على خط الأساس بنسبة 38% وتقليل الإيجابيات الخاطئة بنسبة 19.4%. لقد أدى استخدام RETVec إلى تقليل استخدام TPU الخاص بالنموذج بنسبة 83%، مما يجعل تنفيذ RETVec أحد أكبر الترقيات في السنوات الأخيرة. لقد قامت الشركة باختبار RETVec داخليًا على مدار العام الماضي وقامت بطرحه على جميع حسابات Gmail الخاصة بالمستخدمين.
[إعلان 2]
رابط المصدر
تعليق (0)