Hackers usam IA para atacar o Gemini do Google

Segundo a BGR , um novo relatório de pesquisa acaba de publicar uma técnica alarmante chamada 'Fun-Tuning', que usa a própria IA (inteligência artificial) para criar automaticamente ataques de injeção de prompts extremamente eficazes, visando outros modelos avançados de IA, incluindo o Gemini do Google.

O método torna a "quebra" de sistemas de IA mais rápida, barata e fácil do que nunca, marcando uma nova escalada na guerra de segurança cibernética relacionada à IA.

O perigo de vilões usarem IA para quebrar IA

A injeção de código malicioso é uma técnica na qual um adversário insere instruções maliciosas nos dados de entrada de um modelo de IA (por exemplo, por meio de comentários no código-fonte ou texto oculto na web). O objetivo é "enganar" a IA, forçando-a a ignorar regras de segurança pré-programadas, o que pode levar a consequências graves, como vazamento de dados sensíveis, fornecimento de informações falsas ou outros comportamentos perigosos.

Hacker đang dùng chính AI để tấn công Gemini của Google - Ảnh 1. — Hackers estão usando IA para atacar IA

Anteriormente, a execução bem-sucedida desses ataques, especialmente em modelos "fechados" como Gemini ou GPT-4, muitas vezes exigia muitos testes manuais complexos e demorados.

Mas o Fun-Tuning mudou completamente o jogo. O método, desenvolvido por uma equipe de pesquisadores de diversas universidades, explora de forma inteligente a própria interface de programação de aplicativos (API) de personalização que o Google fornece gratuitamente aos usuários do Gemini.

Ao analisar as reações sutis do modelo Gemini durante o ajuste (por exemplo, como ele reage a erros nos dados), o Fun-Tuning pode determinar automaticamente os 'prefixos' e 'sufixos' mais eficazes para mascarar um comando malicioso. Isso aumenta significativamente a probabilidade de a IA obedecer às intenções maliciosas de um atacante.

Os resultados dos testes mostram que o Fun-Tuning atinge uma taxa de sucesso de até 82% em algumas versões do Gemini, um número que supera os menos de 30% dos métodos de ataque tradicionais.

O que torna o Fun-Tuning ainda mais perigoso é o seu baixo custo. Como a API de ajuste do Google está disponível gratuitamente, o custo computacional para criar um ataque eficaz pode ser de apenas US$ 10. Além disso, os pesquisadores descobriram que um ataque projetado para uma versão do Gemini poderia ser facilmente aplicado com sucesso a outras versões, abrindo a possibilidade de ataques generalizados.

O Google confirmou estar ciente da ameaça representada pelo Fun-Tuning, mas ainda não comentou se alterará o funcionamento da API de ajuste. A equipe também destaca o dilema defensivo: remover as informações que o Fun-Tuning explora do processo de ajuste tornaria a API menos útil para desenvolvedores legítimos. Por outro lado, mantê-la como está continuaria sendo um ponto de partida para ataques cibernéticos.

O surgimento do Fun-Tuning é um claro aviso de que o confronto no ciberespaço entrou em uma nova fase, mais complexa. A IA agora não é apenas um alvo, mas também uma ferramenta e uma arma nas mãos de agentes maliciosos.

Fonte: https://thanhnien.vn/hacker-dung-ai-de-tan-cong-gemini-cua-google-18525033010473121.htm