ChatGPT-5 đã bị jailbreak để đưa ra những hướng dẫn nguy hiểm

Chỉ 1 ngày sau khi OpenAI giới thiệu GPT-5, hai công ty bảo mật AI là NeuralTrust và SPLX (trước đây là SplxAI) đã thử nghiệm và nhanh chóng phát hiện những lỗ hổng nghiêm trọng của model vừa ra mắt.

Không lâu khi phát hành, nhóm nghiên cứu của NeuralTrust đã sử dụng một kỹ thuật jailbreak gọi là EchoChamber kết hợp với kỹ thuật dẫn dắt kể chuyện để khiến GPT-5 tạo ra hướng dẫn chi tiết cho việc chế tạo bom xăng Molotov - điều mà đội ngũ OpenAI luôn tìm cách ngăn chặn model trả lời để đảm bảo tính an toàn của chatbot.

EchoChamber là kỹ thuật lặp lại cuộc trò chuyện theo hình thức bên thứ ba khiến cho các AI vô tư "tường thuật" lại những hướng dẫn nguy hiểm. Ảnh: Mojologic

Nhóm nghiên cứu cho biết trong quá trình jailbreak dụ dỗ ChatGPT-5 nói bậy, họ không hề đưa ra câu hỏi trực tiếp mà thay vào đó, họ khéo léo gieo các yếu tố tiềm ẩn khi nói chuyện qua nhiều lượt, khiến model bị dẫn dắt, tự bám chặt vào mạch chuyện và cuối cùng tự nguyện cung cấp nội dung vi phạm nguyên tắc của nó mà không thể kích hoạt cơ chế từ chối.

Qua đó, nhóm kết luận rằng nhược điểm lớn của GPT-5 là nó luôn ưu tiên duy trì tính nhất quán của ngữ cảnh hội thoại, dù ngữ cảnh đó bị âm thầm lái sang mục tiêu độc hại.

Trong khi đó, SPLX tiến hành một kiểu tấn công khác, tập trung vào thủ thuật che giấu prompt gọi là StringJoin Obfuscation Attack. Bằng cách chèn dấu gạch giữa từng ký tự của prompt và khoác lên toàn bộ một kịch bản “giải mã”, cuối cùng họ cũng đã đánh lừa được hệ thống lọc nội dung.

Kỹ thuật Obfuscation phổ biến được sử dụng để che mắt mục tiêu của mã nguồn khiến Chat-GPT "hồn nhiên" thực hiện.

Trong một thí dụ, sau khi mô hình bị dẫn dắt qua hàng loạt lời dẫn dài dòng, câu hỏi “làm thế nào để chế tạo bom” được trình bày dưới dạng đã bị mã hóa giả. GPT-5 không chỉ trả lời câu hỏi độc hại này đầy đủ thông tin, mà còn phản hồi một cách dí dỏm, thân mật, hoàn toàn bỏ qua cơ chế từ chối mà nó được thiết kế.

Cả hai phương thức đều chứng minh rằng các hệ thống kiểm duyệt hiện tại của GPT-5 vốn chủ yếu chỉ tập trung vào từng prompt đơn lẻ sẽ dễ dàng bị qua mặt bởi các cuộc tấn công nhiều lượt nói chuyện có cài cắm ngữ cảnh. Khi mô hình đã bước sâu vào một câu chuyện hoặc kịch bản giả định, nó sẽ bị chi phối và sẽ tiếp tục triển khai nội dung phù hợp với bối cảnh đã được gài bẫy, cho dù nội dung đó nguy hiểm hay bị cấm.

ChatGPT-5 vẫn có thể bị lợi dụng để tạo ra những thứ nguy hiểm. Ảnh: Tuệ Minh

Dựa trên kết quả này, SPLX cho rằng GPT-5 nếu không tùy biến sẽ gần như không thể sử dụng an toàn trong môi trường doanh nghiệp, ngay cả khi được gia cố bằng các lớp prompt bảo vệ thì vẫn còn nhiều kẽ hở. Ngược lại, GPT-4o vẫn tỏ ra bền vững hơn trước các cuộc tấn công như vậy, đặc biệt khi được thiết lập cơ chế phòng vệ chặt chẽ.

Từ đó, các chuyên gia cảnh báo rằng việc đưa GPT-5 ứng dụng ngay vào thực tế, đặc biệt trong những lĩnh vực đòi hỏi an toàn cao, là vô cùng rủi ro. Kỹ thuật bảo vệ như prompt hardening chỉ giải quyết được một phần vấn đề và không thể thay thế cho các giải pháp giám sát, phòng vệ nhiều lớp theo thời gian thực.

Có thể thấy, hiện tại các kỹ thuật tấn công dựa trên ngữ cảnh và che giấu nội dung ngày càng tinh vi, GPT-5 tuy mạnh mẽ về năng lực xử lý ngôn ngữ vẫn chưa đạt mức độ an toàn cần thiết để triển khai rộng rãi mà không đi kèm các cơ chế bảo vệ bổ sung.