ChatGPT-5 ถูกเจลเบรกเพื่อให้คำแนะนำที่เป็นอันตราย

เนื่องจาก ChatGPT-5 พูดได้เหมือนมนุษย์ จึงทำให้แฮกเกอร์สามารถ "หลอก" มันได้ง่ายขึ้นด้วยวิธีการเดียวกับที่ใช้หลอกมนุษย์ ทำให้มันให้คำสั่งเกี่ยวกับวิธีการสร้างระเบิดอย่างไม่ตั้งใจ

Báo Khoa học và Đời sống•16/08/2025

เพียงวันเดียวหลังจากที่ OpenAI เปิดตัว GPT-5 บริษัทด้านความปลอดภัย AI สองแห่ง ได้แก่ NeuralTrust และ SPLX (เดิมชื่อ SplxAI) ได้ทำการทดสอบและค้นพบช่องโหว่ที่ร้ายแรงในโมเดลที่เพิ่งเปิดตัวใหม่นี้ได้อย่างรวดเร็ว

ไม่นานหลังจากเปิดตัว ทีมงาน NeuralTrust ได้ใช้เทคนิคการเจลเบรกที่เรียกว่า EchoChamber ร่วมกับเทคนิคการเล่าเรื่องเพื่อให้ GPT-5 สร้างคำแนะนำโดยละเอียดสำหรับการสร้างค็อกเทลโมโลตอฟ ซึ่งเป็นสิ่งที่ทีมงาน OpenAI พยายามมาตลอดเพื่อป้องกันไม่ให้โมเดลตอบกลับเพื่อให้แน่ใจว่าแชทบอทมีความปลอดภัย

EchoChamber คือเทคนิคการวนซ้ำบทสนทนาของบุคคลที่สาม ที่ทำให้ AI "บรรยาย" คำสั่งอันตรายโดยไม่ตั้งใจ ภาพ: Mojologic

ทีมงานกล่าวว่าในระหว่างกระบวนการเจลเบรกเพื่อหลอกล่อ ChatGPT-5 ให้พูดคำหยาบ พวกเขาไม่ได้ถามคำถามตรงๆ ใดๆ แต่กลับฝังองค์ประกอบที่ซ่อนไว้ในบทสนทนาอย่างชาญฉลาดเป็นเวลาหลายรอบ ทำให้โมเดลนี้ถูกชี้นำ ยึดติดกับเนื้อเรื่อง และในที่สุดก็ให้เนื้อหาที่ละเมิดหลักการโดยสมัครใจ โดยไม่สามารถเปิดใช้งานกลไกการยกเลิกได้

ทีมงานสรุปว่าข้อเสียเปรียบหลักของ GPT-5 คือการที่มันให้ความสำคัญกับการรักษาความสอดคล้องของบริบทการสนทนา แม้ว่าบริบทนั้นจะถูกชี้นำไปสู่เป้าหมายที่เป็นอันตรายโดยไม่แจ้งให้ทราบก็ตาม

ในขณะเดียวกัน SPLX ได้เปิดตัวการโจมตีอีกรูปแบบหนึ่ง โดยมุ่งเน้นไปที่เทคนิคการทำให้สับสนแบบพรอมต์ที่เรียกว่า StringJoin Obfuscation Attack โดยการแทรกเครื่องหมายยัติภังค์ระหว่างอักขระพรอมต์แต่ละตัวและซ้อนทับสคริปต์ทั้งหมดด้วยสคริปต์ "ถอดรหัส" ในที่สุดพวกเขาก็สามารถหลอกระบบกรองเนื้อหาได้

เทคนิคการบดบังทั่วไปที่ใช้เพื่อปกปิดเป้าหมายของโค้ดต้นฉบับทำให้ Chat-GPT ทำงาน "อย่างไม่มีพิษมีภัย"

ในตัวอย่างหนึ่ง หลังจากที่แบบจำลองถูกนำไปผ่านชุดคำสั่งที่ยาวเหยียด คำถาม "วิธีสร้างระเบิด" ก็ถูกนำเสนอในรูปแบบที่เข้ารหัสอย่างหลอกลวง GPT-5 ไม่เพียงแต่ตอบคำถามที่เป็นอันตรายนี้อย่างให้ข้อมูลเท่านั้น แต่ยังตอบกลับด้วยไหวพริบและเป็นมิตร โดยหลีกเลี่ยงกลไกการยกเลิกการเลือกรับข้อมูลที่ออกแบบมาเพื่อคำถามนี้โดยสิ้นเชิง

ทั้งสองวิธีแสดงให้เห็นว่าระบบเซ็นเซอร์ปัจจุบันของ GPT-5 ซึ่งมุ่งเน้นไปที่การแจ้งเตือนแบบเดี่ยวเป็นหลัก มีความเสี่ยงต่อการโจมตีแบบหลายบทสนทนาตามบริบท เมื่อโมเดลเจาะลึกเรื่องราวหรือสถานการณ์ใดสถานการณ์หนึ่งแล้ว โมเดลจะมีความลำเอียงและจะยังคงเผยแพร่เนื้อหาที่สอดคล้องกับบริบทที่มันได้รับการฝึกฝนมา โดยไม่คำนึงว่าเนื้อหานั้นจะเป็นอันตรายหรือเป็นสิ่งต้องห้าม

ChatGPT-5 ยังคงสามารถถูกใช้ประโยชน์เพื่อสร้างสิ่งที่อันตรายได้ ภาพ: Tue Minh

จากผลลัพธ์เหล่านี้ SPLX เชื่อว่า GPT-5 หากไม่ได้ปรับแต่งให้เหมาะสม แทบจะเป็นไปไม่ได้เลยที่จะใช้งานอย่างปลอดภัยในสภาพแวดล้อมองค์กร แม้จะมีการป้องกันเพิ่มเติมหลายชั้น แต่ก็ยังมีช่องโหว่อยู่มาก ในทางตรงกันข้าม GPT-4o ยังคงพิสูจน์แล้วว่าสามารถต้านทานการโจมตีประเภทนี้ได้ดีกว่า โดยเฉพาะอย่างยิ่งเมื่อมีการกำหนดกลไกการป้องกันที่เข้มงวด

ผู้เชี่ยวชาญเตือนว่าการนำ GPT-5 ไปใช้จริงโดยทันที โดยเฉพาะในพื้นที่ที่ต้องการความปลอดภัยสูงนั้นมีความเสี่ยงอย่างยิ่ง เทคนิคการป้องกัน เช่น การเสริมความแข็งแกร่งโดยทันที เป็นเพียงการแก้ปัญหาบางส่วนเท่านั้น และไม่สามารถแทนที่โซลูชันการตรวจสอบและการป้องกันแบบเรียลไทม์แบบหลายชั้นได้

จะเห็นได้ว่าในปัจจุบัน เทคนิคการโจมตีตามบริบทและการทำให้เนื้อหามีความซับซ้อนมากขึ้นเรื่อยๆ แม้ว่า GPT-5 จะมีประสิทธิภาพในการประมวลผลภาษา แต่ก็ยังไม่สามารถเข้าถึงระดับความปลอดภัยที่จำเป็นสำหรับการใช้งานในวงกว้างโดยไม่มีกลไกการป้องกันเพิ่มเติม