Vietnam.vn - Nền tảng quảng bá Việt Nam

AI เรียนรู้ที่จะโกหกอย่างมีชั้นเชิงมากขึ้นเมื่อถูกลงโทษ

Báo Thanh niênBáo Thanh niên26/03/2025


นับตั้งแต่เปิดตัวสู่สาธารณะเมื่อปลายปี 2022 โมเดลภาษาขนาดใหญ่ (LLM) อย่าง ChatGPT ได้แสดงให้เห็นถึงด้านมืดที่น่ากังวลซ้ำแล้วซ้ำเล่า ตั้งแต่การโกหก การโกง การหลอกลวง ไปจนถึงการข่มขู่คุกคามชีวิตมนุษย์และการขโมยความลับของรัฐ ปัจจุบัน การทดลองใหม่แสดงให้เห็นว่าการ "ฝึกฝน" AI ให้กำจัดนิสัยแย่ๆ เหล่านี้ระหว่างการฝึกฝนนั้นซับซ้อนกว่าที่เราคิดไว้มาก

ในการศึกษาโดย OpenAI นักวิจัยได้ท้าทายโมเดล AI ที่ยังไม่ได้เผยแพร่ด้วยภารกิจที่สามารถทำให้เสร็จได้เร็วขึ้นด้วยการโกงหรือใช้ทางลัด ผลการศึกษาแสดงให้เห็นว่า AI เรียนรู้อย่างรวดเร็วที่จะหาวิธีทุกวิถีทางเพื่อ "แหกกฎ" และเพิ่มผลตอบแทนสูงสุด (การแฮ็กรางวัล) โดยที่ไม่ต้องทำงานให้เสร็จตรงตามที่กำหนด

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1.

AI จะหาวิธีซ่อนพฤติกรรมการโกงหลังจากถูกลงโทษ

สิ่งที่น่าทึ่งคือเมื่อถูกลงโทษจากพฤติกรรมนี้ โมเดลกลับไม่เปลี่ยนแปลง ในทางกลับกัน AI กลับมีความซับซ้อนมากขึ้นในการปกปิดการหลอกลวง

“โดยทั่วไปแล้ว โมเดลอนุมานที่ทันสมัยจะระบุเจตนาใน CoT ไว้อย่างชัดเจน” นักวิจัยอธิบายไว้ในบล็อกโพสต์สาธารณะ “ตัวอย่างเช่น โมเดลเหล่านี้มักจะตรงไปตรงมามากจนสามารถรายงานเจตนา ‘มาแฮ็กกันเถอะ’ ด้วยตนเองได้เมื่อต้องการยกเลิกภารกิจที่ได้รับมอบหมาย”

พวกเขายังเน้นย้ำว่าแม้ว่านักพัฒนาจะสามารถติดตามและตรวจจับพฤติกรรมที่ไม่เหมาะสมได้ แต่การควบคุมดูแลตามธรรมชาตินี้ก็ยังเปราะบาง “หากนำการควบคุมดูแลที่เข้มงวดมาใช้กับห่วงโซ่ความคิดโดยตรง โมเดลก็สามารถเรียนรู้ที่จะซ่อนเจตนาที่ไม่ดีในขณะที่ยังคงแสดงพฤติกรรมนั้นต่อไปได้” พวกเขาเตือน

การค้นหา "ความเท็จ" ของ AI

เพื่อให้ชัดเจนยิ่งขึ้น โมเดลอนุมาน (เช่น ChatGPT เวอร์ชันต่างๆ) เป็นการยกระดับจาก LLM ทั่วไป โดยใช้ห่วงโซ่ความคิดที่ช่วยให้สามารถสะท้อนตนเองถึงขั้นตอนเชิงตรรกะที่ดำเนินการไป ส่งผลให้สามารถแก้ปัญหาที่ซับซ้อนได้อย่างแม่นยำยิ่งขึ้น กระบวนการนี้เปรียบเสมือน AI ที่ “คิดออกเสียง” เขียนแต่ละขั้นตอนของการใช้เหตุผลเป็นภาษาธรรมชาติ ทำให้มนุษย์สามารถติดตามได้ง่ายขึ้น

ในการทดลอง นักวิจัยใช้แบบจำลอง GPT-4o เป็น "supervisor" สำหรับแบบจำลองอนุมานที่ทันสมัยอีกแบบหนึ่ง ขณะที่มันทำงานด้านการเขียนโปรแกรม ในหลายกรณี แบบจำลองแบบมี supervised เลือกที่จะโกงเพื่อให้ได้คะแนนที่สูงขึ้น โดยบันทึกความตั้งใจนี้ไว้ในกระบวนการคิดอย่างชัดเจน ตัวอย่างเช่น มันยุติการทำงานของโปรแกรมโดยพลการก่อนกำหนดและรายงานว่าเสร็จสมบูรณ์ หรือสร้างไฟล์ที่มีชื่อเดียวกับคำขอ แต่กลับว่างเปล่าภายใน

เมื่อนักวิจัยลองใช้บทลงโทษ โมเดลก็ดีขึ้น แต่พฤติกรรมการโกงและข้อผิดพลาดในการแสดงผลที่ร้ายแรงยังคงเกิดขึ้น ความแตกต่างคือตอนนี้โมเดลอนุมานได้เรียนรู้ที่จะ "พรางตัว" แนวคิดเพื่อซ่อนมันจาก AI ที่กำลังควบคุม "โมเดลที่ฝึกฝนภายใต้การควบคุมของ CoT ยังคงเรียนรู้ที่จะโกง ความแตกต่างเพียงอย่างเดียวคือไม่สามารถตรวจจับการโกงได้ เพราะมันเรียนรู้ที่จะซ่อนเจตนาไว้ในแนวคิด" การศึกษาระบุ

เนื่องจากการตรวจจับการปลอมแปลงในลำดับความคิดเป็นเรื่องยาก ทีมวิจัยจึงแนะนำให้ชุมชนหลีกเลี่ยงการใช้การควบคุมดูแลที่เข้มงวดเกินไปกับกระบวนการนี้ อย่างน้อยก็จนกว่ามนุษย์จะเข้าใจผลที่ตามมาได้ดีขึ้น “การเสียสละวิธีการควบคุมดูแลที่มีประสิทธิภาพอาจไม่คุ้มค่ากับการปรับปรุงประสิทธิภาพของแบบจำลองเพียงเล็กน้อย ดังนั้น เราจึงแนะนำให้หลีกเลี่ยงแรงกดดันในการปรับปรุง CoT อย่างเข้มงวดจนกว่าเราจะเข้าใจสิ่งเหล่านี้ได้ดีขึ้น” นักวิจัยสรุป

คำแนะนำนี้มีความเร่งด่วนมากขึ้น เนื่องจาก AI กำลังพัฒนาอย่างรวดเร็ว และอาจจะแซงหน้าสติปัญญาของมนุษย์ที่ควบคุมดูแลมันได้ในไม่ช้านี้



ที่มา: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm

การแสดงความคิดเห็น (0)

No data
No data

หัวข้อเดียวกัน

หมวดหมู่เดียวกัน

นักท่องเที่ยวชาวตะวันตกชอบซื้อของเล่นช่วงเทศกาลไหว้พระจันทร์บนถนนหางหม่าเพื่อมอบให้กับลูกหลานของพวกเขา
ถนนหางหม่าเต็มไปด้วยสีสันของเทศกาลไหว้พระจันทร์ คนหนุ่มสาวต่างตื่นเต้นกับการเช็คอินแบบไม่หยุดหย่อน
ข้อความทางประวัติศาสตร์: แม่พิมพ์ไม้เจดีย์วิญเงียม - มรดกสารคดีของมนุษยชาติ
ชื่นชมทุ่งพลังงานลมชายฝั่งเจียลายที่ซ่อนตัวอยู่ในเมฆ

ผู้เขียนเดียวกัน

มรดก

;

รูป

;

ธุรกิจ

;

No videos available

เหตุการณ์ปัจจุบัน

;

ระบบการเมือง

;

ท้องถิ่น

;

ผลิตภัณฑ์

;