Google เพิ่งเผยแพร่บล็อกโพสต์เกี่ยวกับความปลอดภัย ซึ่งให้รายละเอียดเกี่ยวกับสิ่งที่เรียกว่าการอัปเกรดการป้องกันครั้งใหญ่ที่สุดครั้งหนึ่งของตัวกรองสแปมของ Gmail ในช่วงไม่กี่ปีที่ผ่านมา เป็นระบบจำแนกข้อความแบบใหม่ที่เรียกว่า Resilient and Efficient Text Vectorization (RETVec) Google ระบุว่าระบบนี้สามารถช่วยทำความเข้าใจความเกี่ยวข้องและความเฉพาะเจาะจงของข้อความ ซึ่งก็คืออีเมลที่เต็มไปด้วยอักขระพิเศษ อิโมจิ การสะกดผิด และข้อความขยะอื่นๆ ที่ก่อนหน้านี้มนุษย์สามารถอ่านได้ แต่คอมพิวเตอร์ไม่สามารถเข้าใจได้ง่าย ก่อนหน้านี้ ข้อความสแปมที่เต็มไปด้วยอักขระพิเศษสามารถหลบเลี่ยงการป้องกันของ Gmail ได้อย่างง่ายดาย
แม้ว่าตัวกรองสแปมใดๆ ก็สามารถกำจัดอีเมลที่ระบุว่า "ยินดีด้วย! ยอดเงิน $1,000 พร้อมสำหรับบัญชีแจ็กพอตของคุณ" ได้ แต่ตัวอักษรส่วนใหญ่ในอีเมลนั้นถูกฝังลึกลงไปอย่างไม่มีที่สิ้นสุดตามมาตรฐาน Unicode ซึ่งผู้ใช้สามารถค้นหาอักขระที่ดูเหมือนเป็นส่วนหนึ่งของตัวอักษรละตินทั่วไปได้
Google ระบุว่า RETVec ได้รับการฝึกฝนให้มีความยืดหยุ่นต่อการดำเนินการในระดับอักขระ รวมถึงการแทรก การลบ การสะกดผิด คำพ้องเสียง การแทนที่ LEET และอื่นๆ โมเดล RETVec ได้รับการฝึกฝนบนการเข้ารหัสอักขระแบบใหม่ที่สามารถเข้ารหัสอักขระและคำทั้งหมดในชุด UTF-8 ได้อย่างมีประสิทธิภาพ ด้วยเหตุนี้ RETVec จึงทำงานได้อย่างยอดเยี่ยมในกว่า 100 ภาษา โดยไม่ต้องใช้ตารางค้นหาหรือขนาดคำศัพท์คงที่
ด้วย RETVec ตอนนี้ Gmail สามารถจดจำและกรองสแปมได้ดีขึ้น
Google ระบุว่าประสิทธิภาพการทำงานแตกต่างกันอย่างมาก วิธีการที่ใช้ขนาดคำศัพท์คงที่หรือตารางค้นหาคำพ้องเสียงนั้นต้องใช้ทรัพยากรมาก ในทางกลับกัน RETVec มีพารามิเตอร์เพียง 200,000 ตัวแทนที่จะเป็นหลายล้านตัว ดังนั้นแม้ว่าแพลตฟอร์มคลาวด์สำหรับกรองสแปมของ Google จะมีขนาดใหญ่เพียงพอ แต่ก็สามารถทำงานบนเครื่องคอมพิวเตอร์ภายในได้ RETVec เป็นโอเพนซอร์ส และ Google หวังว่าจะสามารถกำจัดการโจมตีด้วยคำพ้องเสียงได้
RETVec ทำงานในลักษณะเดียวกับโมเดลการเรียนรู้ของเครื่อง TensorFlow ซึ่งใช้ความคล้ายคลึงกันทางภาพเพื่อระบุความหมายของคำแทนที่จะใช้เนื้อหาตัวอักษรที่แท้จริง วิธีการนี้นำไปสู่การปรับปรุงครั้งใหญ่ โดย Google ระบุว่าการเปลี่ยนระบบจำแนกสแปมของ Gmail เป็น RETVec ช่วยเพิ่มอัตราการตรวจจับสแปมจากค่าพื้นฐานได้ 38% และลดผลบวกลวงได้ 19.4% การใช้ RETVec ช่วยลดการใช้ TPU ของโมเดลลงได้ 83% ทำให้การเปิดตัว RETVec เป็นหนึ่งในการอัปเกรดที่ยิ่งใหญ่ที่สุดในช่วงไม่กี่ปีที่ผ่านมา บริษัทได้ทำการทดสอบ RETVec ภายในองค์กรมาเป็นเวลาหนึ่งปีแล้ว และได้เปิดให้ผู้ใช้ Gmail ทุกคนใช้งานแล้ว
ลิงค์ที่มา
การแสดงความคิดเห็น (0)