גוגל פרסמה לאחרונה פוסט בבלוג אבטחה המפרט את מה שהיא מכנה אחד משדרוגי ההגנה הגדולים ביותר למסנן הספאם של ג'ימייל בשנים האחרונות. זוהי מערכת סיווג טקסט חדשה בשם Resilient and Efficient Text Vectorization (RETVec). גוגל טוענת שהיא יכולה לעזור להבין את הרלוונטיות והספציפיות של טקסט, כלומר הודעות דוא"ל מלאות בתווים מיוחדים, אימוג'ים, שגיאות כתיב ושאר זבל שבעבר היו קריאים על ידי בני אדם אך לא מובנים בקלות על ידי מכונות. בעבר, הודעות ספאם מלאות בתווים מיוחדים חמקו בקלות דרך ההגנות של ג'ימייל.
בעוד שכל מסנן דואר זבל כנראה יסיר אימייל שכתוב בו "מזל טוב! יתרה של 1,000 דולר נוספה לחשבון הג'קפוט שלך", הרוב המכריע של האותיות באימייל נכנסות למעמקים האינסופיים של תקן יוניקוד, שם משתמשים עשויים למצוא תווים שנראים כאילו הם חלק מהאלף-בית הלטיני הרגיל.
גוגל טוענת ש-RETVec מאומן להיות עמיד לפעולות ברמת התווים, כולל הוספות, מחיקות, שגיאות כתיב, הומונימים, החלפות LEET ועוד. מודל RETVec מאומן על קידוד תווים חדש שיכול לקודד ביעילות את כל התווים והמילים במערכת UTF-8. כתוצאה מכך, RETVec עולה על ביצועים של למעלה מ-100 שפות מבלי להזדקק לטבלאות חיפוש או גדלי אוצר מילים קבועים.
הודות ל-RETVec, ג'ימייל יכול כעת לזהות ולסנן דואר זבל טוב יותר
גוגל אומרת שההבדל דרמטי. שיטות המשתמשות בגדלי אוצר מילים קבועים או בטבלאות חיפוש עבור הומונימים צורכות משאבים רבים. לעומת זאת, ל-RETVec יש רק 200,000 פרמטרים במקום מיליונים, כך שבעוד שפלטפורמת הענן של גוגל לסינון דואר זבל גדולה, היא יכולה לפעול על מכונה מקומית. RETVec היא קוד פתוח, וגוגל מקווה שהיא תבטל את התקפות ההומונימים.
RETVec פועל באופן דומה למודלים של למידת מכונה של TensorFlow, המשתמשים בדמיון חזותי כדי לקבוע את משמעות המילים ולא את תוכן התווים בפועל שלהן. גישה זו הובילה לשיפורים גדולים, כאשר גוגל טוענת כי החלפת מסווג הספאם של Gmail ב-RETVec שיפרה את שיעורי זיהוי הספאם ב-38% מהבסיס והפחיתה את מספר התוצאות החיוביות השגויות ב-19.4%. השימוש ב-RETVec הפחית את השימוש ב-TPU של המודל ב-83%, מה שהופך את פריסת RETVec לאחד השדרוגים הגדולים ביותר בשנים האחרונות. החברה בדקה את RETVec באופן פנימי בשנה האחרונה והשיקה אותו בכל חשבונות Gmail של המשתמשים.
[מודעה_2]
קישור למקור






תגובה (0)