Google baru-baru ini menerbitkan postingan blog Keamanan yang merinci apa yang disebutnya sebagai salah satu peningkatan pertahanan terbesar untuk filter spam Gmail dalam beberapa tahun terakhir. Ini adalah sistem klasifikasi teks baru yang disebut Resilient and Efficient Text Vectorization (RETVec). Google mengatakan sistem ini dapat membantu memahami relevansi dan spesifisitas teks, yaitu email yang berisi karakter khusus, emoji, salah eja, dan sampah lainnya yang sebelumnya dapat dibaca oleh manusia tetapi tidak mudah dipahami oleh mesin. Sebelumnya, pesan spam yang berisi karakter khusus dengan mudah melewati pertahanan Gmail.
Meskipun filter spam apa pun dapat menyaring email yang bertuliskan, "Selamat! Saldo $1.000 tersedia untuk akun jackpot Anda," sebagian besar huruf dalam email tersebut masuk ke dalam standar Unicode yang tak terbatas, tempat pengguna dapat menemukan karakter yang tampak seperti bagian dari alfabet Latin biasa.
Google menyatakan bahwa RETVec dilatih agar tangguh terhadap operasi tingkat karakter, termasuk penyisipan, penghapusan, salah eja, homonim, substitusi LEET, dan lainnya. Model RETVec dilatih dengan pengodean karakter baru yang dapat mengodekan semua karakter dan kata dalam set UTF-8 secara efisien. Hasilnya, RETVec berkinerja sangat baik di lebih dari 100 bahasa tanpa memerlukan tabel pencarian atau ukuran kosakata yang tetap.
Berkat RETVec, Gmail kini dapat mengenali dan memfilter spam dengan lebih baik
Google menyatakan perbedaan performanya sangat signifikan. Metode yang menggunakan ukuran kosakata tetap atau tabel pencarian homonim membutuhkan sumber daya yang intensif. Di sisi lain, RETVec hanya memiliki 200.000 parameter, bukan jutaan, sehingga meskipun platform cloud penyaringan spam Google cukup besar, platform ini dapat berjalan di komputer lokal. RETVec bersifat sumber terbuka, dan Google berharap dapat menghilangkan serangan homonim.
RETVec bekerja dengan cara yang mirip dengan model pembelajaran mesin TensorFlow, yang menggunakan kesamaan visual untuk menentukan arti kata, alih-alih isi karakternya yang sebenarnya. Pendekatan ini telah menghasilkan peningkatan yang signifikan, dengan Google menyatakan bahwa penggantian pengklasifikasi spam Gmail dengan RETVec meningkatkan tingkat deteksi spam sebesar 38% dibandingkan standar dan mengurangi positif palsu sebesar 19,4%. Penggunaan RETVec mengurangi penggunaan TPU model sebesar 83%, menjadikan peluncuran RETVec salah satu peningkatan terbesar dalam beberapa tahun terakhir. Perusahaan telah menguji RETVec secara internal selama setahun terakhir dan telah meluncurkannya untuk semua pengguna Gmail.
[iklan_2]
Tautan sumber
Komentar (0)