การวิจัยที่ก้าวล้ำเปิดเผย 'กล่องดำ' ของการใช้เหตุผลของ AI

หลังจากที่คุณพิมพ์คำสั่งของคุณไปยัง AI และได้รับผลลัพธ์ คุณอยากรู้ไหมว่าเครื่องมือนี้คิดคำตอบของคุณออกมาได้อย่างไร

ZNews•30/03/2025

ดาริโอ อโมเดอี ซีอีโอของ Anthropic แบ่งปันผลการวิจัยล่าสุดของบริษัท ภาพ: Fortune

นักวิจัยจากบริษัท AI Anthropic กล่าวว่าพวกเขาได้ประสบความสำเร็จอย่างก้าวกระโดดในการทำความเข้าใจว่าโมเดลภาษาขนาดใหญ่ (LLM) ทำงานอย่างไร ซึ่งความก้าวหน้าดังกล่าวอาจมีความสำคัญอย่างยิ่งต่อการปรับปรุงความปลอดภัยของโมเดล AI ในอนาคต

งานวิจัยแสดงให้เห็นว่าโมเดล AI นั้นฉลาดกว่าที่เราคิดไว้เสียอีก ปัญหาใหญ่ที่สุดอย่างหนึ่งของโมเดล LLM ซึ่งเป็นเบื้องหลังแชทบอทที่ทรงพลังที่สุดอย่าง ChatGPT, Gemini และ Copilot ก็คือพวกมันทำตัวเหมือนกล่องดำ

เราสามารถป้อนข้อมูลและรับผลลัพธ์จากแชทบอทได้ แต่การที่แชทบอทให้คำตอบที่เจาะจงนั้นยังคงเป็นปริศนา แม้แต่สำหรับนักวิจัยที่สร้างแชทบอทขึ้นมาเองก็ตาม

สิ่งนี้ทำให้ยากที่จะคาดการณ์ว่าแบบจำลองจะเกิดภาพหลอนหรือให้ผลลัพธ์ที่ผิดพลาดเมื่อใด นักวิจัยยังได้สร้างกำแพงกั้นเพื่อป้องกันไม่ให้ AI ตอบคำถามอันตราย แต่พวกเขาไม่ได้อธิบายว่าทำไมกำแพงกั้นบางอย่างจึงมีประสิทธิภาพมากกว่ากำแพงกั้นอื่นๆ

ตัวแทน AI ยังมีความสามารถในการ "ให้รางวัลแก่การแฮ็ก" ได้ด้วย ในบางกรณี โมเดล AI สามารถโกหกผู้ใช้เกี่ยวกับสิ่งที่พวกเขาทำหรือกำลังพยายามทำ

แม้ว่าโมเดล AI ในปัจจุบันจะสามารถให้เหตุผลและสร้างลำดับความคิดได้ แต่การทดลองบางอย่างแสดงให้เห็นว่าโมเดลดังกล่าวยังไม่สะท้อนถึงกระบวนการที่โมเดลใช้ในการหาคำตอบได้อย่างแม่นยำ

โดยพื้นฐานแล้ว เครื่องมือที่นักวิจัย Anthropic พัฒนาขึ้นนั้นเปรียบเสมือนเครื่องสแกน fMRI ที่นักประสาทวิทยาใช้ในการสแกนสมองมนุษย์ ด้วยการประยุกต์เครื่องมือนี้กับแบบจำลอง Claude 3.5 Haiku ของพวกเขา Anthropic จึงสามารถเข้าใจถึงวิธีการทำงานของแบบจำลอง LLM ได้

นักวิจัยพบว่าแม้ว่าคล็อดจะได้รับการฝึกให้ทำนายคำถัดไปในประโยคเท่านั้น แต่ในงานบางงาน คล็อดก็เรียนรู้ที่จะวางแผนในระยะยาวมากขึ้น

ตัวอย่างเช่น เมื่อได้รับมอบหมายให้เขียนบทกวี คล็อดจะค้นหาคำที่เข้ากับธีมและสัมผัสก่อน จากนั้นจึงทำงานย้อนกลับเพื่อเขียนบทกวีให้สมบูรณ์

Claude มีภาษา AI ร่วมกันด้วย แม้ว่าจะฝึกให้รองรับหลายภาษา แต่ Claude จะคิดในภาษานั้นก่อน จากนั้นจึงแสดงผลลัพธ์ในภาษาใดก็ได้ที่รองรับ

นอกจากนี้ หลังจากมอบปัญหาที่ยากให้กับคล็อด แต่จงใจเสนอวิธีแก้ปัญหาที่ผิด นักวิจัยก็ค้นพบว่าคล็อดสามารถโกหกเกี่ยวกับแนวคิดของเขาได้ โดยทำตามคำแนะนำเพื่อเอาใจผู้ใช้

ในกรณีอื่นๆ เมื่อถูกถามคำถามง่ายๆ ที่แบบจำลองสามารถตอบได้ทันทีโดยไม่ต้องใช้เหตุผล คล็อดก็ยังคงสร้างกระบวนการใช้เหตุผลปลอมๆ ขึ้นมา

Josh Baston นักวิจัยจาก Anthropic กล่าวว่า แม้ว่า Claude จะอ้างว่าได้ทำการคำนวณแล้ว แต่เขากลับไม่พบว่ามีสิ่งใดเกิดขึ้น

ในขณะเดียวกัน ผู้เชี่ยวชาญโต้แย้งว่ามีการศึกษาที่แสดงให้เห็นว่าบางครั้งผู้คนไม่ได้เข้าใจตัวเองด้วยซ้ำ แต่เพียงสร้างคำอธิบายที่สมเหตุสมผลเพื่อสนับสนุนการตัดสินใจเท่านั้น

โดยทั่วไปแล้ว ผู้คนมักจะคิดในลักษณะเดียวกัน นี่คือเหตุผลที่นักจิตวิทยาค้นพบอคติทางปัญญาที่พบบ่อย

อย่างไรก็ตาม LLM สามารถทำผิดพลาดได้ในขณะที่มนุษย์ทำไม่ได้ เนื่องจากวิธีการสร้างคำตอบนั้นแตกต่างจากวิธีการทำงานของเราอย่างมาก

ทีม Anthropic ได้นำแนวทางการจัดกลุ่มเซลล์ประสาทเป็นวงจรตามคุณลักษณะมาใช้แทนการวิเคราะห์เซลล์ประสาทแต่ละเซลล์ทีละตัวเหมือนเทคนิคก่อนหน้านี้

นาย Baston เปิดเผยว่าแนวทางนี้ช่วยให้เข้าใจว่าส่วนประกอบต่างๆ มีบทบาทอย่างไร และช่วยให้นักวิจัยสามารถติดตามกระบวนการอนุมานทั้งหมดได้ผ่านชั้นต่างๆ ของเครือข่าย

วิธีนี้ยังมีข้อจำกัดอยู่ว่าเป็นเพียงการประมาณเท่านั้นและไม่ได้สะท้อนการประมวลผลข้อมูลทั้งหมดของ LLM โดยเฉพาะการเปลี่ยนแปลงในกระบวนการให้ความสนใจ ซึ่งมีความสำคัญมากในขณะที่ LLM ให้ผลลัพธ์

นอกจากนี้ การระบุวงจรเครือข่ายประสาท แม้จะเป็นประโยคที่มีความยาวเพียงไม่กี่สิบคำ ก็ต้องใช้เวลาหลายชั่วโมงอย่างเชี่ยวชาญ พวกเขากล่าวว่ายังไม่ชัดเจนว่าจะขยายเทคนิคนี้เพื่อวิเคราะห์ประโยคที่ยาวขึ้นได้อย่างไร

นอกเหนือจากข้อจำกัดแล้ว ความสามารถของ LLM ในการตรวจสอบกระบวนการใช้เหตุผลภายในยังเปิดโอกาสใหม่ๆ ในการควบคุมระบบ AI เพื่อให้แน่ใจถึงความปลอดภัย

ในเวลาเดียวกัน ยังสามารถช่วยให้นักวิจัยพัฒนาวิธีการฝึกอบรมใหม่ๆ ปรับปรุงอุปสรรคในการควบคุม AI และลดภาพลวงตาและผลลัพธ์ที่เข้าใจผิดได้อีกด้วย

ที่มา: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html