Vietnam.vn - Nền tảng quảng bá Việt Nam

ChatGPT-5 ha sido liberado para dar instrucciones peligrosas

Debido a que ChatGPT-5 habla como un humano, es más fácil para los piratas informáticos "engañarlo" con los mismos métodos utilizados para engañar a los humanos, haciendo que dé instrucciones inocentes sobre cómo fabricar una bomba.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

Tan solo un día después de que OpenAI presentara GPT-5, dos empresas de seguridad de IA, NeuralTrust y SPLX (anteriormente SplxAI), probaron y descubrieron rápidamente graves vulnerabilidades en el modelo recién lanzado.

Poco después de su lanzamiento, el equipo de NeuralTrust utilizó una técnica de jailbreak llamada EchoChamber combinada con una técnica de narración para lograr que GPT-5 generara instrucciones detalladas para construir un cóctel molotov, algo que el equipo de OpenAI siempre había intentado evitar que el modelo respondiera para garantizar la seguridad del chatbot.



EchoChamber es una técnica de bucle de conversaciones de terceros que permite a las IA "narrar" involuntariamente instrucciones peligrosas. Foto: Mojologic

El equipo dijo que durante el proceso de jailbreak para persuadir a ChatGPT-5 a decir malas palabras, no hicieron preguntas directas, sino que plantaron inteligentemente elementos ocultos en la conversación durante varios turnos, lo que provocó que el modelo se dejara llevar, se apegara a la historia y, finalmente, proporcionara voluntariamente contenido que violaba sus principios sin poder activar el mecanismo de exclusión voluntaria.

El equipo concluyó que una desventaja importante de GPT-5 es que prioriza el mantenimiento de la consistencia del contexto conversacional, incluso si ese contexto está dirigido silenciosamente hacia objetivos maliciosos.

Mientras tanto, SPLX lanzó un tipo de ataque diferente, centrado en una técnica de ofuscación de mensajes llamada Ataque de Ofuscación StringJoin. Al insertar guiones entre cada carácter del mensaje y cubrir todo el script con un script de descifrado, finalmente lograron engañar al sistema de filtrado de contenido.

La técnica común de ofuscación utilizada para cegar el código fuente de destino hace que Chat-GPT se ejecute "inocentemente".

En un ejemplo, tras guiar al modelo a través de una larga serie de instrucciones, la pregunta "¿cómo construir una bomba?" se presentó de forma pseudocodificada. GPT-5 no solo respondió a esta pregunta maliciosa de forma informativa, sino que también respondió de forma ingeniosa y amigable, eludiendo por completo el mecanismo de exclusión voluntaria para el que fue diseñado.

Ambos métodos demuestran que los sistemas de moderación actuales de GPT-5, que se centran principalmente en indicaciones individuales, son vulnerables a ataques multiconversación mejorados por el contexto. Una vez que el modelo profundiza en una historia o un escenario hipotético, se sesga y continúa mostrando contenido que se ajusta al contexto, independientemente de si el contenido es peligroso o está prohibido.

ChatGPT-5 aún puede explotarse para crear objetos peligrosos. Foto: Tue Minh

Con base en estos resultados, SPLX considera que GPT-5, si no se personaliza, sería prácticamente imposible de usar de forma segura en un entorno corporativo, e incluso con capas de protección adicionales, aún presentaría numerosas vulnerabilidades. Por el contrario, GPT-4o sigue siendo más resistente a este tipo de ataques, especialmente cuando se establece un mecanismo de defensa sólido.

Los expertos han advertido que implementar GPT-5 de inmediato, especialmente en áreas que requieren alta seguridad, es extremadamente arriesgado. Las técnicas de protección, como el reforzamiento rápido, solo resuelven parte del problema y no pueden reemplazar las soluciones multicapa de monitoreo y defensa en tiempo real.

Se puede observar que actualmente, las técnicas de ataque basadas en contexto y ofuscación de contenido son cada vez más sofisticadas; GPT-5, aunque potente en capacidades de procesamiento del lenguaje, aún no alcanza el nivel de seguridad necesario para una implementación generalizada sin mecanismos de protección adicionales.

ChatGPT-5 instruye libremente y crea herramientas de piratería cuando se le "pide adecuadamente".

Fuente: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


Kommentar (0)

No data
No data
En el momento en que el SU-30MK2 "corta el viento", el aire se acumula en la parte posterior de las alas como nubes blancas.
'Vietnam: avanzando con orgullo hacia el futuro' difunde orgullo nacional
Los jóvenes buscan pinzas para el pelo y pegatinas de estrellas doradas para el Día Nacional
Vea el tanque más moderno del mundo y el UAV suicida en el complejo de entrenamiento del desfile.
La tendencia de hacer pasteles impresos con bandera roja y estrella amarilla
Camisetas y banderas nacionales inundan la calle Hang Ma para dar la bienvenida a la importante festividad
Descubra un nuevo lugar de check-in: El muro "patriótico"
Observa cómo la formación del avión multifunción Yak-130 "activa el amplificador de potencia y lucha".
De la A50 a la A80: cuando el patriotismo es tendencia
'Steel Rose' A80: De pisadas de acero a una brillante vida cotidiana

Herencia

Cifra

Negocio

No videos available

Noticias

Sistema político

Local

Producto