Google baru-baru ini menerbitkan postingan blog Keamanan yang merinci apa yang disebutnya sebagai salah satu peningkatan pertahanan terbesar untuk filter spam Gmail dalam beberapa tahun terakhir. Ini adalah sistem klasifikasi teks baru yang disebut Resilient and Efficient Text Vectorization (RETVec). Google mengatakan sistem ini dapat membantu memahami relevansi dan spesifisitas teks, yaitu email yang berisi karakter khusus, emoji, salah eja, dan sampah lainnya yang sebelumnya dapat dibaca oleh manusia tetapi tidak mudah dipahami oleh mesin. Sebelumnya, pesan spam yang berisi karakter khusus dengan mudah lolos dari pertahanan Gmail.
Meskipun filter spam apa pun kemungkinan besar akan menyaring email yang bertuliskan, "Selamat! Saldo $1.000 telah ditambahkan ke akun jackpot Anda," sebagian besar huruf dalam email tersebut masuk ke dalam standar Unicode yang sangat rumit, di mana pengguna mungkin menemukan karakter yang tampak seperti bagian dari alfabet Latin biasa.
Google menyatakan bahwa RETVec dilatih agar tangguh terhadap operasi tingkat karakter, termasuk penyisipan, penghapusan, salah eja, homonim, substitusi LEET, dan lainnya. Model RETVec dilatih dengan pengodean karakter baru yang dapat mengodekan semua karakter dan kata dalam set UTF-8 secara efisien. Hasilnya, RETVec mengungguli lebih dari 100 bahasa tanpa memerlukan tabel pencarian atau ukuran kosakata yang tetap.
Berkat RETVec, Gmail kini dapat mengenali dan memfilter spam dengan lebih baik
Google mengatakan perbedaannya sangat signifikan. Metode yang menggunakan ukuran kosakata tetap atau tabel pencarian untuk homonim membutuhkan sumber daya yang besar. RETVec, di sisi lain, hanya memiliki 200.000 parameter, bukan jutaan, sehingga meskipun platform cloud penyaringan spam Google berukuran besar, platform ini dapat berjalan di komputer lokal. RETVec bersifat sumber terbuka, dan Google berharap dapat menghilangkan serangan homonim.
RETVec bekerja dengan cara yang mirip dengan model pembelajaran mesin TensorFlow, yang menggunakan kesamaan visual untuk menentukan arti kata, alih-alih isi karakternya yang sebenarnya. Pendekatan ini telah menghasilkan peningkatan yang signifikan, dengan Google menyatakan bahwa penggantian pengklasifikasi spam Gmail dengan RETVec meningkatkan tingkat deteksi spam sebesar 38% dibandingkan standar dan mengurangi positif palsu sebesar 19,4%. Penggunaan RETVec mengurangi penggunaan TPU model sebesar 83%, menjadikan peluncuran RETVec salah satu peningkatan terbesar dalam beberapa tahun terakhir. Perusahaan telah menguji RETVec secara internal selama setahun terakhir dan telah meluncurkannya ke semua akun Gmail pengguna.
[iklan_2]
Tautan sumber
Komentar (0)