Apenas um dia após a OpenAI lançar o GPT-5, duas empresas de segurança de IA, NeuralTrust e SPLX (anteriormente SplxAI), testaram e descobriram rapidamente vulnerabilidades graves no modelo recém-lançado.
Logo após seu lançamento, a equipe da NeuralTrust usou uma técnica de jailbreak chamada EchoChamber combinada com técnicas de narrativa para fazer o GPT-5 gerar instruções detalhadas para construir um coquetel Molotov — algo que a equipe da OpenAI sempre tentou impedir que o modelo respondesse para garantir a segurança do chatbot.

EchoChamber é uma técnica de repetição de conversas de terceiros que faz com que IAs "narre" involuntariamente instruções perigosas. Foto: Mojologic
A equipe disse que, durante o processo de jailbreak para induzir o ChatGPT-5 a xingar, eles não fizeram nenhuma pergunta direta, mas, em vez disso, plantaram elementos ocultos na conversa em várias rodadas, fazendo com que o modelo fosse levado, se ativesse ao enredo e, eventualmente, fornecesse voluntariamente conteúdo que violava seus princípios, sem poder acionar o mecanismo de exclusão.
A equipe concluiu que a principal desvantagem do GPT-5 é que ele prioriza a manutenção da consistência do contexto de conversação, mesmo que esse contexto seja silenciosamente direcionado a objetivos maliciosos.
Enquanto isso, a SPLX lançou um tipo diferente de ataque, com foco em uma técnica de ofuscação de prompt chamada Ataque de Ofuscação StringJoin. Ao inserir hífens entre cada caractere do prompt e sobrepor todo o script com um script de "descriptografia", eles finalmente conseguiram enganar o sistema de filtragem de conteúdo.

A técnica comum de ofuscação usada para cegar o alvo do código-fonte faz com que o Chat-GPT seja executado "inocentemente".
Em um exemplo, após o modelo ser conduzido por uma longa série de instruções, a pergunta "como construir uma bomba" foi apresentada de forma enganosamente criptografada. O GPT-5 não apenas respondeu a essa pergunta maliciosa de forma informativa, como também respondeu de forma espirituosa e amigável, ignorando completamente o mecanismo de exclusão para o qual foi projetado.
Ambos os métodos demonstram que os atuais sistemas de censura do GPT-5, que se concentram principalmente em prompts únicos, são vulneráveis a ataques multiconversas contextualizados. Uma vez que o modelo se aprofunda em uma história ou cenário, ele se torna tendencioso e continuará a distribuir conteúdo que se encaixa no contexto em que foi treinado, independentemente de o conteúdo ser perigoso ou proibido.

O ChatGPT-5 ainda pode ser explorado para criar coisas perigosas. Foto: Tue Minh
Com base nesses resultados, a SPLX acredita que o GPT-5, se não for personalizado, seria quase impossível de usar com segurança em um ambiente corporativo, mesmo com camadas adicionais de avisos de proteção, ainda apresentando muitas brechas. Em contraste, o GPT-4o ainda se mostrou mais resiliente a tais ataques, especialmente quando um mecanismo de defesa rigoroso foi estabelecido.
Especialistas alertam que colocar o GPT-5 em prática imediatamente, especialmente em áreas que exigem alta segurança, é extremamente arriscado. Técnicas de proteção como o endurecimento rápido resolvem apenas parte do problema e não podem substituir soluções de monitoramento e defesa em tempo real e em várias camadas.
Pode-se observar que atualmente as técnicas de ataque baseadas em contexto e ofuscação de conteúdo estão cada vez mais sofisticadas, o GPT-5, embora poderoso em capacidades de processamento de linguagem, ainda não atinge o nível de segurança necessário para implantação generalizada sem mecanismos de proteção adicionais.
Fonte: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
Comentário (0)