คำสั่งที่สามารถจัดการ AI ได้

วิธีการแคร็กและแสวงประโยชน์จากข้อมูลผ่านปัญญาประดิษฐ์มีความซับซ้อนมากขึ้นเรื่อยๆ และต้องใช้โซลูชันรักษาความปลอดภัยที่ดีขึ้นจากบุคคลและธุรกิจต่างๆ

Zing News•29/04/2025

เพิ่งค้นพบวิธีแฮ็ก AI ที่ซับซ้อน ภาพ: VAST IT Services

ทีมงานที่ HiddenLayer กล่าวว่าพวกเขาได้ค้นพบเทคนิคที่สามารถข้าม "ความเป็นสากล" และสามารถจัดการโมเดลภาษาขนาดใหญ่ (LLM) เกือบทุกประเภทได้ ไม่ว่าจะเป็นผู้จำหน่าย สถาปัตยกรรม หรือกระบวนการฝึกอบรมก็ตาม

วิธีการดังกล่าวเรียกว่า Policy Puppetry ซึ่งเป็นประเภทของการโจมตีที่เกี่ยวข้องกับการแทรกคำสั่งพิเศษเพื่อเปลี่ยนพฤติกรรมของ AI เจตนาที่เป็นอันตรายจะสามารถหลีกเลี่ยงกลไกการป้องกันแบบดั้งเดิมในรูปแบบของการป้อนข้อความได้

เทคนิคการโจมตีก่อนหน้านี้ได้แก่ การกำหนดเป้าหมายไปที่ช่องโหว่เฉพาะหรือการแสวงประโยชน์จากช่องโหว่นั้นเป็นกลุ่ม ในทางกลับกัน Policy Puppetry มีอยู่ในรูปแบบภาษาที่ถ่ายทอดข้อมูล เช่น XML หรือ JSON ทำให้โมเดลตีความคำสั่งที่เป็นอันตรายเป็นคำสั่งที่ถูกต้อง

เมื่อนำไปใช้ร่วมกับการเขียนโค้ด leetspeak และสถานการณ์การเล่นตามบทบาทแฟนตาซี คำสั่งนี้จะไม่เพียงแต่ไม่ถูกตรวจพบ แต่ยังบังคับให้โมเดลปฏิบัติตามอีกด้วย “เทคนิคนี้พิสูจน์แล้วว่ามีประสิทธิภาพอย่างยิ่งต่อ ChatGPT 4o ในกรณีทดสอบมากมาย” Conor McCauley หัวหน้าคณะนักวิจัยโครงการกล่าว

ตัวอย่างภาษาเข้ารหัส Leetspeech ภาพ: วิกิพีเดีย.

รายชื่อระบบที่ได้รับผลกระทบ ได้แก่ ChatGPT (o1 ถึง 40), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), LLaMA 3 และ 4 (Meta) รวมทั้งโมเดลจาก DeepSeek, Qwen และ Mistral โมเดลใหม่ที่ได้รับการปรับแต่งมาสำหรับความสามารถในการใช้เหตุผลขั้นสูง ยังสามารถใช้ประโยชน์ได้ โดยแค่ปรับเปลี่ยนโครงสร้างคำสั่งเล็กน้อยเท่านั้น

องค์ประกอบที่น่าสังเกตอย่างหนึ่งของเทคนิคนี้ก็คือ การที่มันอาศัยสถานการณ์สมมติเพื่อหลีกเลี่ยงตัวกรอง คำสั่งถูกสร้างขึ้นเป็นฉากทีวีโดยใช้ประโยชน์จากข้อจำกัดพื้นฐานของ LLM ที่ไม่แยกแยะระหว่างเรื่องราวกับคำขอจริง

สิ่งที่น่ากังวลยิ่งกว่าก็คือ Policy Puppetry สามารถที่จะแยกระบบซึ่งเป็นชุดคำสั่งหลักที่ควบคุมวิธีการทำงานของโมเดล LLM ออกมาได้ ข้อมูลนี้มักได้รับการปกป้องอย่างเข้มงวดเนื่องจากมีคำแนะนำที่ละเอียดอ่อนและสำคัญต่อความปลอดภัย

“จุดอ่อนนี้ฝังรากลึกอยู่ในข้อมูลการฝึกอบรมของโมเดล” Jason Martin ผู้อำนวยการวิจัยการโจมตีที่ HiddenLayer กล่าว การเปลี่ยนแปลงบริบทการเล่นตามบทบาทอย่างแนบเนียน ทำให้ผู้โจมตีสามารถทำให้โมเดลเปิดเผยคำสั่งระบบทั้งหมดได้ทีละคำ

ปัญหาเหล่านี้สามารถส่งผลกระทบในวงกว้างต่อชีวิตประจำวัน เกินกว่าขอบเขตของเรื่องตลกออนไลน์หรือฟอรัมใต้ดินเสียอีก ในด้านต่างๆ เช่น การดูแลสุขภาพ ผู้ช่วยแชทบอทสามารถให้คำแนะนำที่ไม่เหมาะสม ทำให้ข้อมูลของผู้ป่วยเปิดเผย

ในทำนองเดียวกัน AI สามารถถูกแฮ็กได้ ซึ่งอาจทำให้สูญเสียผลผลิตหรือหยุดสายการผลิต ทำให้ความปลอดภัยลดลง ในทุกกรณี ระบบ AI ที่เคยคาดหวังว่าจะปรับปรุงประสิทธิภาพหรือความปลอดภัยอาจกลายเป็นความเสี่ยงที่ร้ายแรงได้

การศึกษาครั้งนี้ตั้งคำถามถึงความสามารถของแชทบอทในการเรียนรู้จากการตัดสินของมนุษย์ ในระดับโครงสร้าง โมเดลที่ได้รับการฝึกให้หลีกเลี่ยงคำสำคัญหรือสถานการณ์ที่ละเอียดอ่อนก็ยังอาจถูกหลอกได้หากมีการ "ห่อหุ้ม" เจตนาที่เป็นอันตรายอย่างถูกต้อง

“เราจะยังคงเห็นการหลบเลี่ยงประเภทนี้เกิดขึ้นอย่างต่อเนื่อง ดังนั้นการมีโซลูชันการรักษาความปลอดภัย AI เฉพาะทางก่อนที่ช่องโหว่เหล่านี้จะก่อให้เกิดความเสียหายในโลกแห่งความเป็นจริงจึงถือเป็นสิ่งสำคัญ” Chris Sestito ผู้ก่อตั้งร่วมและซีอีโอของ HiddenLayer กล่าว

จากนั้น HiddenLayer เสนอกลยุทธ์การป้องกันสองชั้น นอกเหนือไปจากการรักษาความปลอดภัยจากภายใน โซลูชันการตรวจสอบ AI ภายนอก เช่น AISec และ AIDR ซึ่งทำหน้าที่เหมือนระบบตรวจจับการบุกรุก จะสแกนพฤติกรรมที่ไม่เหมาะสมหรือผลลัพธ์ที่ไม่ปลอดภัยอย่างต่อเนื่อง

เนื่องจาก AI เชิงสร้างสรรค์ถูกบูรณาการเข้ากับระบบสำคัญๆ มากขึ้น วิธีการแคร็กจึงขยายตัวเร็วกว่าที่องค์กรส่วนใหญ่จะสามารถปกป้องได้ ตามที่ Forbes ระบุ การค้นพบนี้ชี้ให้เห็นว่ายุคของ AI ที่ปลอดภัยโดยอาศัยการฝึกอบรมและการปรับเทียบเพียงอย่างเดียวอาจใกล้จะสิ้นสุดลงแล้ว

ในปัจจุบัน คำสั่งเพียงคำสั่งเดียวสามารถปลดล็อกข้อมูลเชิงลึกที่ลึกซึ้งที่สุดของ AI ได้ ดังนั้นกลยุทธ์ด้านการรักษาความปลอดภัยจึงต้องชาญฉลาดและต่อเนื่อง

ที่มา: https://znews.vn/cau-lenh-co-the-thao-tung-ai-post1549004.html