Gmail mendapat peningkatan penapis spam terbesar dalam beberapa tahun

Google baru-baru ini menerbitkan catatan blog Keselamatan yang memperincikan apa yang dipanggil sebagai salah satu peningkatan pertahanan terbesar kepada penapis spam Gmail dalam beberapa tahun kebelakangan ini. Ia adalah sistem klasifikasi teks baharu yang dipanggil Resilient and Efficient Text Vectorization (RETVec). Google berkata ia boleh membantu memahami kaitan dan kekhususan teks, iaitu e-mel yang diisi dengan aksara khas, emoji, salah ejaan dan sampah lain yang sebelum ini boleh dibaca oleh manusia tetapi tidak mudah difahami oleh mesin. Sebelum ini, mesej spam yang diisi dengan aksara khas mudah tergelincir melalui pertahanan Gmail.

Walaupun mana-mana penapis spam berkemungkinan akan menghapuskan e-mel yang berbunyi, "Tahniah! Baki $1,000 telah ditambahkan pada akaun jackpot anda," sebahagian besar huruf dalam e-mel masuk ke kedalaman yang tidak berkesudahan dalam standard Unicode, di mana pengguna mungkin menemui aksara yang kelihatan seperti sebahagian daripada abjad Latin biasa.

Google berkata RETVec dilatih untuk berdaya tahan terhadap operasi peringkat aksara termasuk sisipan, pemadaman, salah ejaan, homonim, penggantian LEET dan banyak lagi. Model RETVec dilatih pada pengekodan aksara baharu yang boleh mengekod semua aksara dan perkataan dengan cekap dalam set UTF-8. Akibatnya, RETVec mengatasi lebih 100 bahasa tanpa memerlukan jadual carian atau saiz perbendaharaan kata tetap.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — Terima kasih kepada RETVec, Gmail kini boleh mengecam dan menapis spam dengan lebih baik

Google mengatakan perbezaannya adalah dramatik. Kaedah yang menggunakan saiz perbendaharaan kata tetap atau jadual carian untuk homonim adalah intensif sumber. RETVec, sebaliknya, hanya mempunyai 200,000 parameter dan bukannya berjuta-juta, jadi walaupun platform awan penapisan spam Google adalah besar, ia boleh dijalankan pada mesin tempatan. RETVec ialah sumber terbuka, dan Google berharap ia akan menghapuskan serangan homonim.

RETVec berfungsi dengan cara yang serupa dengan model pembelajaran mesin TensorFlow, yang menggunakan persamaan visual untuk menentukan makna perkataan dan bukannya kandungan watak sebenar mereka. Pendekatan ini telah membawa kepada peningkatan yang besar, dengan Google mengatakan bahawa menggantikan pengelas spam Gmail dengan RETVec meningkatkan kadar pengesanan spam sebanyak 38% berbanding garis dasar dan mengurangkan positif palsu sebanyak 19.4%. Menggunakan RETVec mengurangkan penggunaan TPU model sebanyak 83%, menjadikan pelancaran RETVec sebagai salah satu peningkatan terbesar dalam beberapa tahun kebelakangan ini. Syarikat itu telah menguji RETVec secara dalaman sepanjang tahun lalu dan telah melancarkannya kepada semua akaun Gmail pengguna.

Pautan sumber