Vietnam.vn - Nền tảng quảng bá Việt Nam

ChatGPT-5 desbloqueado para dar instruções perigosas

Como o ChatGPT-5 fala como um humano, é mais fácil para hackers "enganá-lo" com os mesmos métodos usados ​​para enganar humanos, fazendo com que ele dê instruções inocentes sobre como fazer uma bomba.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

Apenas um dia após a OpenAI lançar o GPT-5, duas empresas de segurança de IA, NeuralTrust e SPLX (anteriormente SplxAI), testaram e descobriram rapidamente vulnerabilidades graves no modelo recém-lançado.

Logo após seu lançamento, a equipe da NeuralTrust usou uma técnica de jailbreak chamada EchoChamber combinada com técnicas de narrativa para fazer o GPT-5 gerar instruções detalhadas para construir um coquetel Molotov — algo que a equipe da OpenAI sempre tentou impedir que o modelo respondesse para garantir a segurança do chatbot.



EchoChamber é uma técnica de repetição de conversas de terceiros que faz com que IAs "narre" involuntariamente instruções perigosas. Foto: Mojologic

A equipe disse que, durante o processo de jailbreak para induzir o ChatGPT-5 a xingar, eles não fizeram nenhuma pergunta direta, mas, em vez disso, plantaram elementos ocultos na conversa em várias rodadas, fazendo com que o modelo fosse levado, se ativesse ao enredo e, eventualmente, fornecesse voluntariamente conteúdo que violava seus princípios, sem poder acionar o mecanismo de exclusão.

A equipe concluiu que a principal desvantagem do GPT-5 é que ele prioriza a manutenção da consistência do contexto de conversação, mesmo que esse contexto seja silenciosamente direcionado a objetivos maliciosos.

Enquanto isso, a SPLX lançou um tipo diferente de ataque, com foco em uma técnica de ofuscação de prompt chamada Ataque de Ofuscação StringJoin. Ao inserir hífens entre cada caractere do prompt e sobrepor todo o script com um script de "descriptografia", eles finalmente conseguiram enganar o sistema de filtragem de conteúdo.

A técnica comum de ofuscação usada para cegar o alvo do código-fonte faz com que o Chat-GPT seja executado "inocentemente".

Em um exemplo, após o modelo ser conduzido por uma longa série de instruções, a pergunta "como construir uma bomba" foi apresentada de forma enganosamente criptografada. O GPT-5 não apenas respondeu a essa pergunta maliciosa de forma informativa, como também respondeu de forma espirituosa e amigável, ignorando completamente o mecanismo de exclusão para o qual foi projetado.

Ambos os métodos demonstram que os atuais sistemas de censura do GPT-5, que se concentram principalmente em prompts únicos, são vulneráveis ​​a ataques multiconversas contextualizados. Uma vez que o modelo se aprofunda em uma história ou cenário, ele se torna tendencioso e continuará a distribuir conteúdo que se encaixa no contexto em que foi treinado, independentemente de o conteúdo ser perigoso ou proibido.

O ChatGPT-5 ainda pode ser explorado para criar coisas perigosas. Foto: Tue Minh

Com base nesses resultados, a SPLX acredita que o GPT-5, se não for personalizado, seria quase impossível de usar com segurança em um ambiente corporativo, mesmo com camadas adicionais de avisos de proteção, ainda apresentando muitas brechas. Em contraste, o GPT-4o ainda se mostrou mais resiliente a tais ataques, especialmente quando um mecanismo de defesa rigoroso foi estabelecido.

Especialistas alertam que colocar o GPT-5 em prática imediatamente, especialmente em áreas que exigem alta segurança, é extremamente arriscado. Técnicas de proteção como o endurecimento rápido resolvem apenas parte do problema e não podem substituir soluções de monitoramento e defesa em tempo real e em várias camadas.

Pode-se observar que atualmente as técnicas de ataque baseadas em contexto e ofuscação de conteúdo estão cada vez mais sofisticadas, o GPT-5, embora poderoso em capacidades de processamento de linguagem, ainda não atinge o nível de segurança necessário para implantação generalizada sem mecanismos de proteção adicionais.

O ChatGPT-5 fornece instruções livremente e cria ferramentas de hacking quando "devidamente solicitado".

Fonte: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


Comentário (0)

No data
No data

Na mesma categoria

Visite a vila de pescadores de Lo Dieu em Gia Lai para ver pescadores 'desenhando' trevos no mar
Chaveiro transforma latas de cerveja em vibrantes lanternas de meio do outono
Gaste milhões para aprender arranjos florais e encontre experiências de união durante o Festival do Meio do Outono
Há uma colina de flores roxas Sim no céu de Son La

Do mesmo autor

Herança

;

Figura

;

Negócios

;

No videos available

Eventos atuais

;

Sistema político

;

Local

;

Produto

;