O Google publicou recentemente uma publicação no blog de Segurança detalhando o que chama de uma das maiores melhorias de defesa para o filtro de spam do Gmail nos últimos anos. Trata-se de um novo sistema de classificação de texto chamado Vetorização de Texto Resiliente e Eficiente (RETVec). O Google afirma que ele pode ajudar a entender a relevância e a especificidade do texto, ou seja, e-mails cheios de caracteres especiais, emojis, erros de ortografia e outros tipos de lixo que antes eram legíveis por humanos, mas não facilmente compreendidos por máquinas. Anteriormente, mensagens de spam cheias de caracteres especiais contornavam facilmente as defesas do Gmail.
Embora qualquer filtro de spam possa eliminar um e-mail que diga "Parabéns! Um saldo de US$ 1.000 está disponível para sua conta jackpot", a grande maioria das letras no e-mail se aprofunda nas profundezas infinitas do padrão Unicode, onde os usuários podem encontrar caracteres que parecem fazer parte do alfabeto latino regular.
O Google afirma que o RETVec é treinado para ser resiliente a operações em nível de caractere, incluindo inserções, exclusões, erros ortográficos, homônimos, substituições LEET e muito mais. O modelo RETVec é treinado em uma nova codificação de caracteres que pode codificar com eficiência todos os caracteres e palavras no conjunto UTF-8. Como resultado, o RETVec tem um desempenho excepcionalmente bom em mais de 100 idiomas, sem a necessidade de tabelas de consulta ou tamanhos de vocabulário fixos.
Graças ao RETVec, o Gmail agora pode reconhecer e filtrar melhor o spam
O Google afirma que a diferença de desempenho é drástica. Métodos que usam tamanhos fixos de vocabulário ou tabelas de consulta de homônimos consomem muitos recursos. O RETVec, por outro lado, possui apenas 200.000 parâmetros em vez de milhões, portanto, embora a plataforma em nuvem de filtragem de spam do Google seja grande o suficiente, ela pode ser executada em uma máquina local. O RETVec é de código aberto e o Google espera que ele elimine ataques de homônimos.
O RETVec funciona de forma semelhante aos modelos de aprendizado de máquina do TensorFlow, que usam similaridade visual para determinar o significado das palavras em vez do conteúdo real dos caracteres. Essa abordagem levou a grandes melhorias, com o Google afirmando que a substituição do classificador de spam do Gmail pelo RETVec melhorou as taxas de detecção de spam em 38% em relação à linha de base e reduziu os falsos positivos em 19,4%. O uso do RETVec reduziu o uso de TPU do modelo em 83%, tornando a implementação do RETVec uma das maiores atualizações dos últimos anos. A empresa vem testando o RETVec internamente há um ano e o implementou para todos os usuários do Gmail.
Link da fonte
Comentário (0)