گوگل نے حال ہی میں ایک سیکیورٹی بلاگ پوسٹ شائع کی ہے جس میں بتایا گیا ہے کہ اسے حالیہ برسوں میں جی میل کے اسپام فلٹر میں سب سے بڑے دفاعی اپ گریڈ میں سے ایک کہتے ہیں۔ یہ ایک نیا متن کی درجہ بندی کا نظام ہے جسے لچکدار اور موثر ٹیکسٹ ویکٹرائزیشن (RETVec) کہا جاتا ہے۔ گوگل کا کہنا ہے کہ اس سے متن کی مطابقت اور خاصیت کو سمجھنے میں مدد مل سکتی ہے، جو کہ خصوصی حروف، ایموجیز، غلط املا اور دیگر فضول سے بھری ای میلز ہیں جو پہلے انسانوں کے ذریعے پڑھی جا سکتی تھیں لیکن مشینوں کے ذریعے آسانی سے سمجھ نہیں آتی تھیں۔ اس سے پہلے، خصوصی حروف سے بھرے اسپام پیغامات آسانی سے Gmail کے دفاع سے پھسل جاتے تھے۔
جب کہ کوئی بھی اسپام فلٹر ممکنہ طور پر ایک ای میل کو ختم کر دے گا جس میں لکھا ہو، "مبارک ہو! آپ کے جیک پاٹ اکاؤنٹ میں $1,000 کا بیلنس شامل کر دیا گیا ہے،" ای میل کے خطوط کی اکثریت یونیکوڈ معیار کی لامتناہی گہرائیوں میں جاتی ہے، جہاں صارفین کو ایسے حروف مل سکتے ہیں جو لگتا ہے کہ وہ باقاعدہ لاطینی حروف تہجی کا حصہ ہیں۔
گوگل کا کہنا ہے کہ RETVec کو کردار کی سطح کی کارروائیوں کے لیے لچکدار ہونے کی تربیت دی گئی ہے جس میں اندراج، حذف، غلط املا، ہم نام، LEET متبادل، اور بہت کچھ شامل ہے۔ RETVec ماڈل کو ایک نئے کریکٹر انکوڈنگ پر تربیت دی گئی ہے جو UTF-8 سیٹ میں تمام حروف اور الفاظ کو مؤثر طریقے سے انکوڈ کر سکتا ہے۔ نتیجتاً، RETVec 100 سے زیادہ زبانوں سے بہتر کارکردگی کا مظاہرہ کرتا ہے بغیر تلاش کے جدولوں یا الفاظ کے مقررہ سائز کی ضرورت کے۔
RETVec کی بدولت، Gmail اب اسپام کو بہتر طریقے سے پہچان اور فلٹر کر سکتا ہے۔
گوگل کا کہنا ہے کہ فرق ڈرامائی ہے۔ وہ طریقے جو الفاظ کے مقررہ سائز یا ہم ناموں کے لیے تلاش کی میزیں استعمال کرتے ہیں وسائل کے لحاظ سے بہت زیادہ ہوتے ہیں۔ دوسری طرف RETVec کے پاس لاکھوں کی بجائے صرف 200,000 پیرامیٹرز ہیں، اس لیے جب کہ گوگل کا سپیم فلٹرنگ کلاؤڈ پلیٹ فارم بڑا ہے، یہ مقامی مشین پر چل سکتا ہے۔ RETVec اوپن سورس ہے، اور گوگل کو امید ہے کہ یہ ہم نام حملوں کو ختم کر دے گا۔
RETVec TensorFlow مشین لرننگ ماڈلز کی طرح کام کرتا ہے، جو الفاظ کے اصل کردار کے مواد کے بجائے ان کے معنی کا تعین کرنے کے لیے بصری مماثلت کا استعمال کرتے ہیں۔ اس نقطہ نظر سے بڑی بہتری آئی ہے، گوگل کا کہنا ہے کہ Gmail کے اسپام کلاسیفائر کو RETVec سے تبدیل کرنے سے اسپام کا پتہ لگانے کی شرح میں بیس لائن کے مقابلے میں 38 فیصد بہتری آئی ہے اور غلط مثبت کو 19.4 فیصد کم کیا گیا ہے۔ RETVec کے استعمال سے ماڈل کے TPU کے استعمال میں 83% کی کمی ہوئی، جس سے RETVec رول آؤٹ کو حالیہ برسوں میں سب سے بڑے اپ گریڈ میں سے ایک بنا دیا گیا۔ کمپنی پچھلے ایک سال سے اندرونی طور پر RETVec کی جانچ کر رہی ہے اور اسے تمام صارف جی میل اکاؤنٹس میں لے جا چکی ہے۔
ماخذ لنک
تبصرہ (0)