गूगल ने हाल ही में एक सुरक्षा ब्लॉग पोस्ट प्रकाशित किया है जिसमें बताया गया है कि हाल के वर्षों में जीमेल के स्पैम फ़िल्टर में सबसे बड़े सुरक्षा अपग्रेड में से एक क्या है। यह एक नया टेक्स्ट वर्गीकरण सिस्टम है जिसे रेसिलिएंट एंड एफिशिएंट टेक्स्ट वेक्टराइज़ेशन (RETVec) कहा जाता है। गूगल का कहना है कि यह टेक्स्ट की प्रासंगिकता और विशिष्टता को समझने में मदद कर सकता है, जो विशेष वर्णों, इमोजी, गलत वर्तनियों और अन्य जंक से भरे ईमेल होते हैं जिन्हें पहले इंसान तो पढ़ सकते थे लेकिन मशीनें आसानी से नहीं समझ पाती थीं। पहले, विशेष वर्णों से भरे स्पैम संदेश जीमेल की सुरक्षा को आसानी से भेद लेते थे।
हालांकि कोई भी स्पैम फ़िल्टर ऐसे ईमेल को हटा देगा जिसमें लिखा हो, "बधाई हो! आपके जैकपॉट खाते में $1,000 की राशि जोड़ दी गई है", लेकिन ईमेल के ज़्यादातर अक्षर यूनिकोड मानक की अंतहीन गहराई में चले जाते हैं, जहाँ उपयोगकर्ताओं को ऐसे अक्षर मिल सकते हैं जो देखने में सामान्य लैटिन वर्णमाला के भाग जैसे लगते हैं।
Google का कहना है कि RETVec को वर्ण-स्तरीय संचालनों, जैसे कि प्रविष्टियाँ, विलोपन, अशुद्ध वर्तनी, समानार्थी शब्द, LEET प्रतिस्थापन, आदि के प्रति लचीला होने के लिए प्रशिक्षित किया गया है। RETVec मॉडल को एक नए वर्ण एन्कोडिंग पर प्रशिक्षित किया गया है जो UTF-8 सेट के सभी वर्णों और शब्दों को कुशलतापूर्वक एन्कोड कर सकता है। परिणामस्वरूप, RETVec लुकअप टेबल या निश्चित शब्दावली आकारों की आवश्यकता के बिना 100 से अधिक भाषाओं में बेहतर प्रदर्शन करता है।
RETVec की बदौलत, Gmail अब स्पैम को बेहतर ढंग से पहचान और फ़िल्टर कर सकता है
गूगल का कहना है कि यह अंतर बहुत बड़ा है। निश्चित शब्दावली आकार या समानार्थी शब्दों के लिए लुकअप टेबल का इस्तेमाल करने वाले तरीके संसाधन-गहन होते हैं। दूसरी ओर, RETVec में लाखों के बजाय केवल 2,00,000 पैरामीटर हैं, इसलिए गूगल का स्पैम-फ़िल्टरिंग क्लाउड प्लेटफ़ॉर्म बड़ा होने के बावजूद, यह स्थानीय मशीन पर चल सकता है। RETVec ओपन सोर्स है, और गूगल को उम्मीद है कि यह समानार्थी शब्दों के हमलों को खत्म कर देगा।
RETVec, TensorFlow मशीन लर्निंग मॉडल की तरह ही काम करता है, जो शब्दों के वास्तविक वर्णों के बजाय उनके अर्थ निर्धारित करने के लिए दृश्य समानता का उपयोग करता है। इस दृष्टिकोण से बड़े सुधार हुए हैं, Google का कहना है कि Gmail के स्पैम क्लासिफायर को RETVec से बदलने से स्पैम पहचान दर में आधार रेखा की तुलना में 38% सुधार हुआ और गलत सकारात्मकता में 19.4% की कमी आई। RETVec के उपयोग से मॉडल के TPU उपयोग में 83% की कमी आई, जिससे RETVec का रोलआउट हाल के वर्षों में सबसे बड़े अपग्रेड में से एक बन गया। कंपनी पिछले एक साल से RETVec का आंतरिक परीक्षण कर रही है और इसे सभी उपयोगकर्ता Gmail खातों में रोलआउट कर दिया है।
[विज्ञापन_2]
स्रोत लिंक
टिप्पणी (0)