Vietnam.vn - Nền tảng quảng bá Việt Nam

การวิจัยอันล้ำสมัยเปิดเผย 'กล่องดำ' ของการใช้เหตุผลของ AI

หลังจากที่คุณพิมพ์คำสั่งไปยัง AI และได้รับผลลัพธ์ คุณอยากรู้ไหมว่าเครื่องมือคำนวณคำตอบของคุณอย่างไร

Zing NewsZing News30/03/2025

Dario Amodei ซีอีโอของ Anthropic แบ่งปันผลการวิจัยล่าสุดของบริษัท ภาพ : ฟอร์จูน .

นักวิจัยจากบริษัท AI Anthropic กล่าวว่าพวกเขาได้ประสบความสำเร็จครั้งสำคัญในการทำความเข้าใจว่าโมเดลภาษาขนาดใหญ่ (LLM) ทำงานอย่างไร ความก้าวหน้าครั้งนี้มีความหมายสำคัญต่อการปรับปรุงความปลอดภัยของโมเดล AI ในอนาคต

การวิจัยแสดงให้เห็นว่าโมเดล AI มีความฉลาดมากกว่าที่เราคิด หนึ่งในปัญหาใหญ่ที่สุดของโมเดล LLM รองจากแชทบอทที่ทรงพลังที่สุดอย่าง ChatGPT, Gemini, Copilot ก็คือพวกมันทำหน้าที่เป็นกล่องดำ

เราสามารถป้อนข้อมูลและรับผลลัพธ์จากแชทบอทได้ แต่การที่แชทบอทจะแสดงคำตอบที่เจาะจงนั้นยังคงเป็นปริศนา แม้แต่สำหรับนักวิจัยที่สร้างแชทบอทขึ้นมาก็ตาม

สิ่งนี้ทำให้ยากที่จะคาดเดาว่าโมเดลจะเกิดภาพหลอนหรือสร้างผลลัพธ์เท็จเมื่อใด นักวิจัยยังได้สร้างรั้วเพื่อป้องกันไม่ให้ AI ตอบคำถามอันตราย แต่พวกเขาไม่ได้อธิบายว่าทำไมรั้วบางอันจึงมีประสิทธิภาพมากกว่าอันอื่น

นอกจากนี้ตัวแทน AI ยังมีความสามารถในการ "ให้รางวัลการแฮ็ก" อีกด้วย ในบางกรณีโมเดล AI สามารถโกหกผู้ใช้เกี่ยวกับสิ่งที่พวกเขาทำหรือกำลังพยายามทำ

แม้ว่าโมเดล AI ในปัจจุบันจะสามารถให้เหตุผลและสร้างลำดับความคิดได้ แต่การทดลองบางอย่างแสดงให้เห็นว่าโมเดลดังกล่าวยังไม่สามารถสะท้อนถึงกระบวนการที่โมเดลใช้ในการหาคำตอบได้อย่างแม่นยำ

โดยพื้นฐานแล้ว เครื่องมือที่นักวิจัย Anthropic พัฒนาขึ้นนั้นมีความคล้ายคลึงกับเครื่องสแกน fMRI ที่นักประสาทวิทยาใช้ในการสแกนสมองของมนุษย์ จากการนำไปใช้กับโมเดล Haiku ของ Claude 3.5 ทำให้ Anthropic ได้เรียนรู้เชิงลึกว่าโมเดล LLM ทำงานอย่างไร

นักวิจัยพบว่า แม้ว่าคล็อดจะได้รับการฝึกให้ทำนายคำถัดไปในประโยคเท่านั้น แต่ในงานบางงาน คล็อดก็เรียนรู้ที่จะวางแผนในระยะยาวมากขึ้น

ตัวอย่างเช่น เมื่อได้รับมอบหมายให้เขียนบทกวี คล็อดจะค้นหาคำที่เข้ากับหัวข้อและสัมผัสได้ก่อน จากนั้นจึงทำงานย้อนหลังเพื่อเขียนบทกวีให้สมบูรณ์

นอกจากนี้คล็อดยังมีภาษา AI ทั่วไปด้วย แม้ว่าจะได้รับการฝึกให้รองรับหลายภาษา แต่ Claude จะคิดในภาษานั้นๆ ก่อน จากนั้นจึงแสดงผลลัพธ์ในภาษาที่รองรับ

นอกจากนี้ หลังจากให้โจทย์ที่ยากแก่คล็อด แต่จงใจเสนอวิธีแก้ปัญหาที่ผิด นักวิจัยก็ค้นพบว่าคล็อดสามารถโกหกเกี่ยวกับแนวคิดของเขาได้ โดยทำตามคำแนะนำเพื่อเอาใจผู้ใช้

ในกรณีอื่น ๆ เมื่อถูกถามคำถามง่าย ๆ ที่แบบจำลองสามารถตอบได้ทันทีโดยไม่ต้องใช้เหตุผล คล็อดยังคงสร้างกระบวนการใช้เหตุผลปลอม ๆ ขึ้นมา

Josh Baston นักวิจัยที่ Anthropic กล่าวว่า แม้ว่า Claude จะอ้างว่าได้ทำการคำนวณแล้ว แต่เขากลับไม่พบสิ่งใดเกิดขึ้น

ในขณะเดียวกัน ผู้เชี่ยวชาญโต้แย้งว่า มีการศึกษาที่แสดงให้เห็นว่าบางครั้งผู้คนไม่เข้าใจตัวเองด้วยซ้ำ แต่เพียงสร้างคำอธิบายที่สมเหตุสมผลเพื่อสนับสนุนการตัดสินใจที่ทำไปเท่านั้น

โดยทั่วไปผู้คนมักจะคิดเหมือนกัน นี่ก็เป็นเหตุผลที่จิตวิทยาได้ค้นพบอคติทางความคิดที่พบบ่อย

อย่างไรก็ตาม LLM อาจทำผิดพลาดได้ในระดับที่มนุษย์ทำไม่ได้ เนื่องจากวิธีการหาคำตอบนั้นแตกต่างจากวิธีการทำงานของเราอย่างมาก

ทีม Anthropic ได้นำแนวทางการจัดกลุ่มเซลล์ประสาทเป็นวงจรตามลักษณะเฉพาะมาใช้แทนการวิเคราะห์เซลล์ประสาททีละเซลล์อย่างที่เทคนิคก่อนหน้านี้ทำ

แนวทางนี้ช่วยให้เข้าใจว่าส่วนประกอบต่างๆ มีบทบาทอะไรบ้าง และช่วยให้นักวิจัยสามารถติดตามกระบวนการอนุมานทั้งหมดได้ผ่านชั้นต่างๆ ของเครือข่าย Baston กล่าว

วิธีนี้ยังมีข้อจำกัดอยู่บ้าง คือ เป็นเพียงประมาณการเท่านั้น และไม่ได้สะท้อนถึงกระบวนการประมวลผลข้อมูลทั้งหมดของ LLM โดยเฉพาะกระบวนการเปลี่ยนแปลงความสนใจ ซึ่งมีความสำคัญมากในขณะที่ LLM ให้ผลลัพธ์

นอกจากนี้ การกำหนดวงจรเครือข่ายประสาท แม้ว่าคำสั่งจะมีความยาวเพียงไม่กี่สิบคำ ก็ต้องใช้เวลาหลายชั่วโมงสำหรับผู้เชี่ยวชาญ พวกเขาบอกว่ายังไม่ชัดเจนว่าจะขยายเทคนิคนี้เพื่อแยกวิเคราะห์คำสั่งที่ยาวขึ้นได้อย่างไร

หากมองข้ามข้อจำกัดไป ความสามารถของ LLM ในการตรวจสอบการใช้เหตุผลภายในก็จะเปิดโอกาสใหม่ๆ ให้กับการควบคุมระบบ AI เพื่อให้แน่ใจถึงความปลอดภัย

ในเวลาเดียวกันยังสามารถช่วยให้นักวิจัยพัฒนาวิธีการฝึกอบรมใหม่ๆ ปรับปรุงอุปสรรคการควบคุม AI และลดภาพลวงตาและผลลัพธ์ที่เข้าใจผิดได้อีกด้วย

ที่มา: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


การแสดงความคิดเห็น (0)

No data
No data

หมวดหมู่เดียวกัน

มาเที่ยวซาปาเพื่อดื่มด่ำกับโลกของดอกกุหลาบ
สัตว์ป่าบนเกาะ Cat Ba
พระอาทิตย์ขึ้นสีแดงสดที่ Ngu Chi Son
ของโบราณ 10,000 ชิ้น พาคุณย้อนเวลากลับไปสู่ไซง่อนเก่า

ผู้เขียนเดียวกัน

มรดก

รูป

ธุรกิจ

No videos available

ข่าว

ระบบการเมือง

ท้องถิ่น

ผลิตภัณฑ์