Google, yakın zamanda Gmail'in spam filtresine yönelik son yıllardaki en büyük savunma iyileştirmelerinden biri olarak adlandırdığı şeyi ayrıntılarıyla anlatan bir Güvenlik blog yazısı yayınladı. Bu, Dayanıklı ve Verimli Metin Vektörizasyonu (RETVec) adlı yeni bir metin sınıflandırma sistemi. Google, bu sistemin, daha önce insanlar tarafından okunabilen ancak makineler tarafından kolayca anlaşılamayan özel karakterler, emojiler, yazım hataları ve diğer gereksiz öğelerle dolu e-postalar olan metnin alaka düzeyini ve özgüllüğünü anlamanıza yardımcı olabileceğini söylüyor. Daha önce, özel karakterlerle dolu spam iletiler Gmail'in savunmasını kolayca aşıyordu.
Herhangi bir spam filtresi, "Tebrikler! Büyük ikramiye hesabınıza 1.000 dolar eklendi" yazan bir e-postayı muhtemelen ortadan kaldıracaktır; ancak e-postadaki harflerin büyük çoğunluğu, kullanıcıların normal Latin alfabesinin bir parçası gibi görünen karakterlerle karşılaşabileceği Unicode standardının sonsuz derinliklerine iniyor.
Google, RETVec'in ekleme, silme, yazım yanlışları, eş anlamlılar, LEET değişiklikleri ve daha fazlası dahil olmak üzere karakter düzeyindeki işlemlere dayanıklı olacak şekilde eğitildiğini belirtiyor. RETVec modeli, UTF-8 kümesindeki tüm karakterleri ve kelimeleri verimli bir şekilde kodlayabilen yeni bir karakter kodlaması üzerine eğitilmiştir. Sonuç olarak, RETVec, arama tabloları veya sabit kelime dağarcığı boyutları gerektirmeden 100'den fazla dili geride bırakmaktadır.
RETVec sayesinde Gmail artık spam'i daha iyi tanıyıp filtreleyebiliyor
Google, farkın çok büyük olduğunu söylüyor. Sabit kelime dağarcığı boyutları veya eş anlamlılar için arama tabloları kullanan yöntemler kaynak yoğundur. RETVec ise milyonlarca parametre yerine yalnızca 200.000 parametreye sahiptir, bu nedenle Google'ın spam filtreleme bulut platformu büyük olsa da yerel bir bilgisayarda çalışabilir. RETVec açık kaynaklıdır ve Google, eş anlamlı kelime saldırılarını ortadan kaldıracağını umuyor.
RETVec, kelimelerin gerçek karakter içerikleri yerine anlamlarını belirlemek için görsel benzerliği kullanan TensorFlow makine öğrenimi modellerine benzer şekilde çalışır. Bu yaklaşım büyük iyileştirmelere yol açmıştır. Google, Gmail'in spam sınıflandırıcısının RETVec ile değiştirilmesinin spam tespit oranlarını temel seviyeye göre %38 artırdığını ve yanlış pozitifleri %19,4 oranında azalttığını belirtmiştir. RETVec kullanımı, modelin TPU kullanımını %83 oranında azaltarak RETVec'in kullanıma sunulmasını son yıllardaki en büyük iyileştirmelerden biri haline getirmiştir. Şirket, RETVec'i son bir yıldır şirket içinde test ediyor ve tüm kullanıcı Gmail hesaplarına sunmuştur.
[reklam_2]
Kaynak bağlantısı
Yorum (0)