A Google nemrégiben közzétett egy biztonsági blogbejegyzést, amelyben részletesen ismertette a Gmail spamszűrőjének egyik legnagyobb védelmi fejlesztését az elmúlt években. Ez egy új szövegosztályozási rendszer, a Resilient and Efficient Text Vectorization (RETVec). A Google szerint ez a rendszer segíthet megérteni a szövegek relevanciáját és specifikusságát, azaz a speciális karakterekkel, emojikkal, elgépelésekkel és egyéb, korábban emberek által olvasható, de a gépek által nehezen érthető szeméttel teli e-maileket. Korábban a speciális karakterekkel teli spamüzenetek könnyen átcsúsztak a Gmail védelmi rendszerein.
Bár bármelyik spamszűrő valószínűleg kiszűrne egy olyan e-mailt, amely így szól: „Gratulálunk! 1000 dolláros egyenleget jóváírtunk a jackpot számládon”, az e-mailben szereplő betűk túlnyomó többsége az Unicode szabvány végtelen mélységeibe vándorol, ahol a felhasználók olyan karaktereket találhatnak, amelyek úgy néznek ki, mintha a normál latin ábécé részei lennének.
A Google szerint a RETVec úgy van betanítva, hogy ellenálljon a karakterszintű műveleteknek, beleértve a beszúrásokat, törléseket, helyesírási hibákat, homonimákat, LEET-helyettesítéseket és egyebeket. A RETVec modellt egy új karakterkódolással képezték ki, amely hatékonyan képes kódolni az UTF-8 készlet összes karakterét és szavát. Ennek eredményeként a RETVec több mint 100 nyelvet felülmúl anélkül, hogy keresőtáblákra vagy fix szókincsméretekre lenne szüksége.
A RETVecnek köszönhetően a Gmail mostantól jobban felismeri és szűri a spameket
A Google szerint a különbség drámai. Azok a módszerek, amelyek fix szókincsméreteket vagy homonimák keresésére keresőtáblákat használnak, erőforrás-igényesek. A RETVec ezzel szemben csak 200 000 paraméterrel rendelkezik több millió helyett, így bár a Google spamszűrő felhőplatformja nagy, helyi gépen is futtatható. A RETVec nyílt forráskódú, és a Google reméli, hogy kiküszöböli a homonima támadásokat.
A RETVec hasonlóan működik, mint a TensorFlow gépi tanulási modellek, amelyek vizuális hasonlóságot használnak a szavak jelentésének meghatározására, nem pedig a tényleges karaktertartalmuk alapján. Ez a megközelítés jelentős fejlesztésekhez vezetett, a Google szerint a Gmail spamosztályozójának a RETVec-re való lecserélése 38%-kal javította a spamészlelési arányt az alapértékhez képest, és 19,4%-kal csökkentette a téves riasztások számát. A RETVec használata 83%-kal csökkentette a modell TPU-használatát, így a RETVec bevezetése az elmúlt évek egyik legnagyobb fejlesztése volt. A vállalat az elmúlt évben belsőleg tesztelte a RETVec-et, és minden felhasználói Gmail-fiókra bevezette.
[hirdetés_2]
Forráslink
Hozzászólás (0)