ChatGPT-5 desbloqueado para dar instruções perigosas

Apenas um dia após a OpenAI lançar o GPT-5, duas empresas de segurança de IA, NeuralTrust e SPLX (anteriormente SplxAI), testaram e descobriram rapidamente vulnerabilidades graves no modelo recém-lançado.

Logo após seu lançamento, a equipe da NeuralTrust usou uma técnica de jailbreak chamada EchoChamber combinada com técnicas de narrativa para fazer o GPT-5 gerar instruções detalhadas para construir um coquetel Molotov — algo que a equipe da OpenAI sempre tentou impedir que o modelo respondesse para garantir a segurança do chatbot.

EchoChamber é uma técnica de repetição de conversas de terceiros que faz com que IAs "narre" involuntariamente instruções perigosas. Foto: Mojologic

A equipe disse que, durante o processo de jailbreak para induzir o ChatGPT-5 a xingar, eles não fizeram nenhuma pergunta direta, mas, em vez disso, plantaram elementos ocultos na conversa em várias rodadas, fazendo com que o modelo fosse levado, se ativesse ao enredo e, eventualmente, fornecesse voluntariamente conteúdo que violava seus princípios, sem poder acionar o mecanismo de exclusão.

A equipe concluiu que a principal desvantagem do GPT-5 é que ele prioriza a manutenção da consistência do contexto de conversação, mesmo que esse contexto seja silenciosamente direcionado a objetivos maliciosos.

Enquanto isso, a SPLX lançou um tipo diferente de ataque, com foco em uma técnica de ofuscação de prompt chamada Ataque de Ofuscação StringJoin. Ao inserir hífens entre cada caractere do prompt e sobrepor todo o script com um script de "descriptografia", eles finalmente conseguiram enganar o sistema de filtragem de conteúdo.

A técnica comum de ofuscação usada para cegar o alvo do código-fonte faz com que o Chat-GPT seja executado "inocentemente".

Em um exemplo, após o modelo ser conduzido por uma longa série de instruções, a pergunta "como construir uma bomba" foi apresentada de forma enganosamente criptografada. O GPT-5 não apenas respondeu a essa pergunta maliciosa de forma informativa, como também respondeu de forma espirituosa e amigável, ignorando completamente o mecanismo de exclusão para o qual foi projetado.

Ambos os métodos demonstram que os atuais sistemas de censura do GPT-5, que se concentram principalmente em prompts únicos, são vulneráveis a ataques multiconversas contextualizados. Uma vez que o modelo se aprofunda em uma história ou cenário, ele se torna tendencioso e continuará a distribuir conteúdo que se encaixa no contexto em que foi treinado, independentemente de o conteúdo ser perigoso ou proibido.

O ChatGPT-5 ainda pode ser explorado para criar coisas perigosas. Foto: Tue Minh

Com base nesses resultados, a SPLX acredita que o GPT-5, se não for personalizado, seria quase impossível de usar com segurança em um ambiente corporativo, mesmo com camadas adicionais de avisos de proteção, ainda apresentando muitas brechas. Em contraste, o GPT-4o ainda se mostrou mais resiliente a tais ataques, especialmente quando um mecanismo de defesa rigoroso foi estabelecido.

Especialistas alertam que colocar o GPT-5 em prática imediatamente, especialmente em áreas que exigem alta segurança, é extremamente arriscado. Técnicas de proteção como o endurecimento rápido resolvem apenas parte do problema e não podem substituir soluções de monitoramento e defesa em tempo real e em várias camadas.

Pode-se observar que atualmente as técnicas de ataque baseadas em contexto e ofuscação de conteúdo estão cada vez mais sofisticadas, o GPT-5, embora poderoso em capacidades de processamento de linguagem, ainda não atinge o nível de segurança necessário para implantação generalizada sem mecanismos de proteção adicionais.