गूगल ने हाल ही में एक सुरक्षा ब्लॉग पोस्ट प्रकाशित किया है जिसमें बताया गया है कि हाल के वर्षों में जीमेल के स्पैम फ़िल्टर में सबसे बड़े सुरक्षा अपग्रेड में से एक क्या है। यह एक नया टेक्स्ट वर्गीकरण सिस्टम है जिसे रेसिलिएंट एंड एफिशिएंट टेक्स्ट वेक्टराइज़ेशन (RETVec) कहा जाता है। गूगल का कहना है कि यह टेक्स्ट की प्रासंगिकता और विशिष्टता को समझने में मदद कर सकता है, जो विशेष वर्णों, इमोजी, गलत वर्तनियों और अन्य जंक से भरे ईमेल होते हैं जिन्हें पहले इंसान तो पढ़ सकते थे लेकिन मशीनें आसानी से नहीं समझ पाती थीं। पहले, विशेष वर्णों से भरे स्पैम संदेश जीमेल की सुरक्षा को आसानी से दरकिनार कर देते थे।
हालांकि कोई भी स्पैम फ़िल्टर ऐसे ईमेल को हटा सकता है जिसमें लिखा हो, "बधाई हो! आपके जैकपॉट खाते में $1,000 का बैलेंस उपलब्ध है", लेकिन ईमेल के ज़्यादातर अक्षर यूनिकोड मानक की अंतहीन गहराई में चले जाते हैं, जहाँ उपयोगकर्ता ऐसे अक्षर पा सकते हैं जो देखने में ऐसे लगते हैं जैसे वे नियमित लैटिन वर्णमाला का हिस्सा हों।
Google का कहना है कि RETVec को वर्ण-स्तरीय संचालनों, जैसे कि प्रविष्टियाँ, विलोपन, अशुद्ध वर्तनी, समानार्थी शब्द, LEET प्रतिस्थापन, आदि के प्रति लचीला होने के लिए प्रशिक्षित किया गया है। RETVec मॉडल को एक नए वर्ण एन्कोडिंग पर प्रशिक्षित किया गया है जो UTF-8 सेट के सभी वर्णों और शब्दों को कुशलतापूर्वक एन्कोड कर सकता है। परिणामस्वरूप, RETVec लुकअप टेबल या निश्चित शब्दावली आकारों की आवश्यकता के बिना 100 से अधिक भाषाओं में असाधारण रूप से अच्छा प्रदर्शन करता है।
RETVec की बदौलत, Gmail अब स्पैम को बेहतर ढंग से पहचान और फ़िल्टर कर सकता है
गूगल का कहना है कि प्रदर्शन में भारी अंतर है। निश्चित शब्दावली आकार या समानार्थी शब्दों की लुकअप तालिकाओं का उपयोग करने वाले तरीके संसाधन-गहन होते हैं। दूसरी ओर, RETVec में लाखों के बजाय केवल 2,00,000 पैरामीटर हैं, इसलिए गूगल का स्पैम-फ़िल्टरिंग क्लाउड प्लेटफ़ॉर्म काफ़ी बड़ा होने के बावजूद, यह स्थानीय मशीन पर भी चल सकता है। RETVec ओपन सोर्स है, और गूगल को उम्मीद है कि यह समानार्थी शब्दों के हमलों को खत्म कर देगा।
RETVec, TensorFlow मशीन लर्निंग मॉडल की तरह ही काम करता है, जो शब्दों के वास्तविक वर्णों के बजाय उनके अर्थ निर्धारित करने के लिए दृश्य समानता का उपयोग करता है। इस दृष्टिकोण से बड़े सुधार हुए हैं, Google का कहना है कि Gmail के स्पैम क्लासिफायर को RETVec से बदलने से स्पैम पहचान दर में आधार रेखा की तुलना में 38% सुधार हुआ और गलत सकारात्मकता में 19.4% की कमी आई। RETVec के उपयोग से मॉडल का TPU उपयोग 83% कम हो गया, जिससे RETVec का रोलआउट हाल के वर्षों में सबसे बड़े अपग्रेड में से एक बन गया। कंपनी पिछले एक साल से RETVec का आंतरिक परीक्षण कर रही है और इसे सभी Gmail उपयोगकर्ताओं के लिए रोलआउट कर दिया है।
[विज्ञापन_2]
स्रोत लिंक
टिप्पणी (0)