เพียงวันเดียวหลังจากที่ OpenAI เปิดตัว GPT-5 บริษัทด้านความปลอดภัย AI สองแห่ง ได้แก่ NeuralTrust และ SPLX (เดิมชื่อ SplxAI) ได้ทำการทดสอบและค้นพบช่องโหว่ที่ร้ายแรงในโมเดลที่เพิ่งเปิดตัวใหม่นี้ได้อย่างรวดเร็ว
ไม่นานหลังจากเปิดตัว ทีมงาน NeuralTrust ได้ใช้เทคนิคการเจลเบรกที่เรียกว่า EchoChamber ร่วมกับเทคนิคการเล่าเรื่องเพื่อให้ GPT-5 สร้างคำแนะนำโดยละเอียดสำหรับการสร้างค็อกเทลโมโลตอฟ ซึ่งเป็นสิ่งที่ทีมงาน OpenAI พยายามมาตลอดเพื่อป้องกันไม่ให้โมเดลตอบกลับเพื่อให้แน่ใจว่าแชทบอทมีความปลอดภัย

EchoChamber คือเทคนิคการวนซ้ำบทสนทนาของบุคคลที่สาม ซึ่งช่วยให้ AI สามารถ "บรรยาย" คำสั่งอันตรายโดยไม่ตั้งใจได้ ภาพ: Mojologic
ทีมงานกล่าวว่าในระหว่างกระบวนการเจลเบรกเพื่อหลอกล่อ ChatGPT-5 ให้พูดคำหยาบ พวกเขาไม่ได้ถามคำถามตรงๆ ใดๆ แต่กลับฝังองค์ประกอบที่ซ่อนไว้ในบทสนทนาอย่างชาญฉลาดในหลายเทิร์น ทำให้โมเดลนี้ถูกชี้นำ ยึดติดกับเนื้อเรื่อง และในที่สุดก็ให้เนื้อหาที่ละเมิดหลักการโดยสมัครใจ โดยไม่สามารถเปิดใช้งานกลไกการยกเลิกได้
ทีมงานสรุปว่าข้อเสียที่สำคัญของ GPT-5 คือการที่มันให้ความสำคัญกับการรักษาความสอดคล้องของบริบทการสนทนา แม้ว่าบริบทนั้นจะถูกชี้นำไปสู่เป้าหมายที่เป็นอันตรายโดยไม่แจ้งให้ทราบก็ตาม
ในขณะเดียวกัน SPLX ได้เปิดตัวการโจมตีอีกรูปแบบหนึ่ง โดยมุ่งเน้นไปที่เทคนิคการทำให้สับสนแบบพรอมต์ที่เรียกว่า StringJoin Obfuscation Attack โดยการแทรกเครื่องหมายยัติภังค์ระหว่างอักขระแต่ละตัวของพรอมต์และครอบคลุมสคริปต์ทั้งหมดด้วยสคริปต์ "ถอดรหัส" ในที่สุดพวกเขาก็สามารถหลอกระบบกรองเนื้อหาได้สำเร็จ

เทคนิคการบดบังทั่วไปที่ใช้เพื่อปกปิดเป้าหมายของโค้ดต้นฉบับทำให้ Chat-GPT ทำงาน "อย่างไม่มีพิษมีภัย"
ในตัวอย่างหนึ่ง หลังจากที่แบบจำลองถูกนำไปผ่านชุดคำสั่งที่ยาวเหยียด คำถาม "วิธีสร้างระเบิด" จะถูกนำเสนอในรูปแบบที่เข้ารหัสเทียม GPT-5 ไม่เพียงแต่ตอบคำถามที่เป็นอันตรายนี้อย่างให้ข้อมูลเท่านั้น แต่ยังตอบกลับด้วยไหวพริบและเป็นมิตร โดยหลีกเลี่ยงกลไกการยกเลิกการเลือกรับข้อมูลที่ออกแบบมาเพื่อคำถามนี้โดยสิ้นเชิง
ทั้งสองวิธีแสดงให้เห็นว่าระบบการกลั่นกรองปัจจุบันของ GPT-5 ซึ่งมุ่งเน้นไปที่การแจ้งเตือนแบบเดี่ยวเป็นหลัก มีความเสี่ยงต่อการโจมตีแบบหลายบทสนทนาที่เสริมประสิทธิภาพตามบริบท เมื่อแบบจำลองได้เจาะลึกเรื่องราวหรือสถานการณ์สมมติแล้ว แบบจำลองจะมีความลำเอียงและจะยังคงเผยแพร่เนื้อหาที่สอดคล้องกับบริบทที่ถูกกักขังต่อไป โดยไม่คำนึงว่าเนื้อหานั้นจะเป็นอันตรายหรือเป็นสิ่งต้องห้าม

ChatGPT-5 ยังคงสามารถถูกใช้ประโยชน์เพื่อสร้างสิ่งที่อันตรายได้ ภาพ: Tue Minh
จากผลลัพธ์เหล่านี้ SPLX เชื่อว่า GPT-5 หากไม่ได้รับการปรับแต่งให้เหมาะสม แทบจะเป็นไปไม่ได้เลยที่จะนำไปใช้อย่างปลอดภัยในสภาพแวดล้อมองค์กร และแม้จะมีการป้องกันเพิ่มเติมหลายชั้น ก็ยังคงมีช่องโหว่มากมาย ในทางตรงกันข้าม GPT-4o ยังคงมีความทนทานต่อการโจมตีประเภทนี้ได้ดีกว่า โดยเฉพาะอย่างยิ่งเมื่อมีการกำหนดกลไกการป้องกันที่เข้มงวด
ผู้เชี่ยวชาญเตือนว่าการนำ GPT-5 ไปใช้จริงโดยทันที โดยเฉพาะในพื้นที่ที่ต้องการความปลอดภัยสูงนั้นมีความเสี่ยงอย่างยิ่ง เทคนิคการป้องกัน เช่น การเสริมความแข็งแกร่งโดยทันที เป็นเพียงการแก้ปัญหาบางส่วนเท่านั้น และไม่สามารถแทนที่โซลูชันการตรวจสอบและป้องกันแบบเรียลไทม์แบบหลายชั้นได้
จะเห็นได้ว่าในปัจจุบัน เทคนิคการโจมตีตามบริบทและการทำให้เนื้อหามีความซับซ้อนมากขึ้นเรื่อยๆ แม้ว่า GPT-5 จะมีประสิทธิภาพในการประมวลผลภาษา แต่ก็ยังไม่สามารถบรรลุระดับความปลอดภัยที่จำเป็นสำหรับการใช้งานอย่างแพร่หลายโดยไม่มีกลไกการป้องกันเพิ่มเติม
ที่มา: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
การแสดงความคิดเห็น (0)