Google เพิ่งเผยแพร่บล็อกโพสต์เกี่ยวกับความปลอดภัย ซึ่งให้รายละเอียดเกี่ยวกับสิ่งที่เรียกว่าการอัปเกรดการป้องกันครั้งใหญ่ที่สุดครั้งหนึ่งของตัวกรองสแปมของ Gmail ในช่วงไม่กี่ปีที่ผ่านมา เป็นระบบจำแนกข้อความแบบใหม่ที่เรียกว่า Resilient and Efficient Text Vectorization (RETVec) Google ระบุว่าระบบนี้สามารถช่วยทำความเข้าใจความเกี่ยวข้องและความเฉพาะเจาะจงของข้อความ ซึ่งก็คืออีเมลที่เต็มไปด้วยอักขระพิเศษ อิโมจิ การสะกดผิด และข้อความขยะอื่นๆ ที่ก่อนหน้านี้มนุษย์สามารถอ่านได้ แต่คอมพิวเตอร์ไม่สามารถเข้าใจได้ง่าย ก่อนหน้านี้ ข้อความสแปมที่เต็มไปด้วยอักขระพิเศษสามารถลอดผ่านการป้องกันของ Gmail ได้อย่างง่ายดาย
แม้ว่าตัวกรองสแปมใดๆ ก็น่าจะกำจัดอีเมลที่มีข้อความว่า "ยินดีด้วย! ยอดเงิน $1,000 ถูกเพิ่มเข้าบัญชีแจ็กพอตของคุณแล้ว" แต่ตัวอักษรส่วนใหญ่ในอีเมลนั้นถูกฝังลึกลงไปในมาตรฐาน Unicode อย่างไม่มีที่สิ้นสุด ซึ่งผู้ใช้อาจพบอักขระที่ดูเหมือนเป็นส่วนหนึ่งของอักษรละตินทั่วไป
Google ระบุว่า RETVec ได้รับการฝึกฝนให้มีความยืดหยุ่นต่อการดำเนินการในระดับอักขระ รวมถึงการแทรก การลบ การสะกดผิด คำพ้องเสียง การแทนที่ LEET และอื่นๆ โมเดล RETVec ได้รับการฝึกฝนบนการเข้ารหัสอักขระแบบใหม่ที่สามารถเข้ารหัสอักขระและคำทั้งหมดในชุด UTF-8 ได้อย่างมีประสิทธิภาพ ด้วยเหตุนี้ RETVec จึงมีประสิทธิภาพเหนือกว่ากว่า 100 ภาษา โดยไม่ต้องใช้ตารางค้นหาหรือขนาดคำศัพท์คงที่
ด้วย RETVec ตอนนี้ Gmail สามารถจดจำและกรองสแปมได้ดีขึ้น
Google ระบุว่าความแตกต่างนั้นชัดเจนมาก วิธีการที่ใช้ขนาดคำศัพท์คงที่หรือตารางค้นหาคำพ้องเสียงนั้นต้องใช้ทรัพยากรมาก ในทางกลับกัน RETVec มีพารามิเตอร์เพียง 200,000 ตัวแทนที่จะเป็นหลายล้านตัว ดังนั้นแม้ว่าแพลตฟอร์มคลาวด์สำหรับกรองสแปมของ Google จะมีขนาดใหญ่ แต่ก็สามารถทำงานบนเครื่องคอมพิวเตอร์ภายในได้ RETVec เป็นโอเพนซอร์ส และ Google หวังว่าจะสามารถกำจัดการโจมตีด้วยคำพ้องเสียงได้
RETVec ทำงานในลักษณะเดียวกับโมเดลการเรียนรู้ของเครื่อง TensorFlow ซึ่งใช้ความคล้ายคลึงกันทางภาพเพื่อระบุความหมายของคำแทนที่จะใช้เนื้อหาตัวอักษรที่แท้จริง วิธีการนี้นำไปสู่การปรับปรุงครั้งใหญ่ โดย Google ระบุว่าการเปลี่ยนระบบจำแนกสแปมของ Gmail เป็น RETVec ช่วยเพิ่มอัตราการตรวจจับสแปมได้ 38% เมื่อเทียบกับค่าพื้นฐาน และลดผลบวกลวง (false positive) ลง 19.4% การใช้ RETVec ช่วยลดการใช้ TPU ของโมเดลลง 83% ทำให้การเปิดตัว RETVec เป็นหนึ่งในการอัปเกรดที่ยิ่งใหญ่ที่สุดในช่วงไม่กี่ปีที่ผ่านมา บริษัทได้ทำการทดสอบ RETVec ภายในองค์กรมาเป็นเวลาหนึ่งปีแล้ว และได้ขยายการใช้งานไปยังบัญชี Gmail ของผู้ใช้ทุกคนแล้ว
ลิงค์ที่มา
การแสดงความคิดเห็น (0)