গুগল সম্প্রতি একটি সিকিউরিটি ব্লগ পোস্ট প্রকাশ করেছে যেখানে সাম্প্রতিক বছরগুলিতে জিমেইলের স্প্যাম ফিল্টারের সবচেয়ে বড় প্রতিরক্ষা আপগ্রেডগুলির মধ্যে একটি বর্ণনা করা হয়েছে। এটি একটি নতুন টেক্সট ক্লাসিফিকেশন সিস্টেম যার নাম রেজিলিয়েন্ট অ্যান্ড এফিশিয়েন্ট টেক্সট ভেক্টরাইজেশন (RETVec)। গুগল বলেছে যে এটি টেক্সটের প্রাসঙ্গিকতা এবং নির্দিষ্টতা বুঝতে সাহায্য করতে পারে, যা বিশেষ অক্ষর, ইমোজি, ভুল বানান এবং অন্যান্য জাঙ্ক দিয়ে ভরা ইমেল যা আগে মানুষ পড়তে পারত কিন্তু মেশিন দ্বারা সহজে বোঝা যেত না। পূর্বে, বিশেষ অক্ষর দিয়ে ভরা স্প্যাম বার্তাগুলি সহজেই Gmail এর প্রতিরক্ষা ব্যবস্থা ভেদ করে যেত।
যেকোনো স্প্যাম ফিল্টার সম্ভবত এমন একটি ইমেল মুছে ফেলবে যেখানে লেখা থাকবে, "অভিনন্দন! আপনার জ্যাকপট অ্যাকাউন্টে $1,000 ব্যালেন্স যোগ করা হয়েছে," ইমেলের বেশিরভাগ অক্ষরই ইউনিকোড স্ট্যান্ডার্ডের অসীম গভীরতায় চলে যায়, যেখানে ব্যবহারকারীরা এমন অক্ষর খুঁজে পেতে পারেন যা দেখতে নিয়মিত ল্যাটিন বর্ণমালার অংশ।
গুগল বলছে যে RETVec অক্ষর-স্তরের ক্রিয়াকলাপগুলির জন্য স্থিতিস্থাপক হতে প্রশিক্ষিত, যার মধ্যে সন্নিবেশ, মুছে ফেলা, ভুল বানান, সমজাতীয় শব্দ, LEET প্রতিস্থাপন এবং আরও অনেক কিছু অন্তর্ভুক্ত। RETVec মডেলটি একটি নতুন অক্ষর এনকোডিংয়ে প্রশিক্ষিত যা UTF-8 সেটের সমস্ত অক্ষর এবং শব্দ দক্ষতার সাথে এনকোড করতে পারে। ফলস্বরূপ, RETVec লুকআপ টেবিল বা নির্দিষ্ট শব্দভান্ডারের আকার ছাড়াই 100 টিরও বেশি ভাষার চেয়ে ভাল পারফর্ম করে।
RETVec-এর জন্য ধন্যবাদ, Gmail এখন স্প্যাম আরও ভালোভাবে চিনতে এবং ফিল্টার করতে পারে।
গুগল বলছে পার্থক্যটি নাটকীয়। নির্দিষ্ট শব্দভান্ডারের আকার বা সমজাতীয় শব্দের জন্য লুকআপ টেবিল ব্যবহার করে এমন পদ্ধতিগুলি সম্পদ-নিবিড়। অন্যদিকে, RETVec-এর লক্ষ লক্ষের পরিবর্তে মাত্র 200,000 প্যারামিটার রয়েছে, তাই গুগলের স্প্যাম-ফিল্টারিং ক্লাউড প্ল্যাটফর্মটি বড় হলেও, এটি একটি স্থানীয় মেশিনে চলতে পারে। RETVec ওপেন সোর্স, এবং গুগল আশা করে যে এটি সমজাতীয় শব্দের আক্রমণ দূর করবে।
RETVec TensorFlow মেশিন লার্নিং মডেলের মতোই কাজ করে, যা শব্দের প্রকৃত অক্ষরের পরিবর্তে শব্দের অর্থ নির্ধারণের জন্য ভিজ্যুয়াল সাদৃশ্য ব্যবহার করে। এই পদ্ধতির ফলে বড় ধরনের উন্নতি হয়েছে, গুগল জানিয়েছে যে Gmail এর স্প্যাম ক্লাসিফায়ারকে RETVec দিয়ে প্রতিস্থাপন করার ফলে স্প্যাম সনাক্তকরণের হার বেসলাইনের তুলনায় 38% উন্নত হয়েছে এবং মিথ্যা ইতিবাচকতা 19.4% হ্রাস পেয়েছে। RETVec ব্যবহার করে মডেলের TPU ব্যবহার 83% হ্রাস পেয়েছে, যা RETVec রোলআউটকে সাম্প্রতিক বছরগুলিতে সবচেয়ে বড় আপগ্রেডগুলির মধ্যে একটি করে তুলেছে। কোম্পানিটি গত বছর ধরে অভ্যন্তরীণভাবে RETVec পরীক্ষা করে আসছে এবং এটি সমস্ত ব্যবহারকারীর Gmail অ্যাকাউন্টে রোলআউট করেছে।
[বিজ্ঞাপন_২]
উৎস লিঙ্ক
মন্তব্য (0)