O Google publicou recentemente uma postagem no blog de Segurança detalhando o que chama de uma das maiores melhorias de defesa para o filtro de spam do Gmail nos últimos anos. Trata-se de um novo sistema de classificação de texto chamado Vetorização de Texto Resiliente e Eficiente (RETVec). O Google afirma que ele pode ajudar a entender a relevância e a especificidade do texto, ou seja, e-mails cheios de caracteres especiais, emojis, erros de ortografia e outros tipos de lixo que antes eram legíveis por humanos, mas não facilmente compreendidos por máquinas. Anteriormente, mensagens de spam cheias de caracteres especiais passavam facilmente pelas defesas do Gmail.
Embora qualquer filtro de spam provavelmente eliminasse um e-mail que dissesse: "Parabéns! Um saldo de US$ 1.000 foi adicionado à sua conta jackpot", a grande maioria das letras no e-mail se aprofunda nas profundezas do padrão Unicode, onde os usuários podem encontrar caracteres que parecem fazer parte do alfabeto latino regular.
O Google afirma que o RETVec é treinado para ser resiliente a operações em nível de caractere, incluindo inserções, exclusões, erros ortográficos, homônimos, substituições LEET e muito mais. O modelo RETVec é treinado em uma nova codificação de caracteres que pode codificar com eficiência todos os caracteres e palavras no conjunto UTF-8. Como resultado, o RETVec supera mais de 100 idiomas sem exigir tabelas de consulta ou tamanhos de vocabulário fixos.
Graças ao RETVec, o Gmail agora pode reconhecer e filtrar melhor o spam
O Google afirma que a diferença é drástica. Métodos que usam tamanhos fixos de vocabulário ou tabelas de consulta para homônimos consomem muitos recursos. O RETVec, por outro lado, possui apenas 200.000 parâmetros em vez de milhões, portanto, embora a plataforma em nuvem de filtragem de spam do Google seja grande, ela pode ser executada em uma máquina local. O RETVec é de código aberto e o Google espera que ele elimine ataques homônimos.
O RETVec funciona de forma semelhante aos modelos de aprendizado de máquina do TensorFlow, que usam a similaridade visual para determinar o significado das palavras em vez do conteúdo real dos caracteres. Essa abordagem levou a grandes melhorias, com o Google afirmando que a substituição do classificador de spam do Gmail pelo RETVec melhorou as taxas de detecção de spam em 38% em relação à linha de base e reduziu os falsos positivos em 19,4%. O uso do RETVec reduziu o uso de TPU do modelo em 83%, tornando a implementação do RETVec uma das maiores melhorias dos últimos anos. A empresa vem testando o RETVec internamente há um ano e o implementou em todas as contas de usuários do Gmail.
[anúncio_2]
Link da fonte
Comentário (0)