ดาริโอ อโมเดอี ซีอีโอของ Anthropic แบ่งปันผลการวิจัยล่าสุดของบริษัท ภาพ: Fortune |
นักวิจัยจากบริษัท AI Anthropic กล่าวว่าพวกเขาได้ประสบความสำเร็จอย่างก้าวกระโดดในการทำความเข้าใจว่าโมเดลภาษาขนาดใหญ่ (LLM) ทำงานอย่างไร ซึ่งความก้าวหน้าดังกล่าวอาจมีความสำคัญอย่างยิ่งต่อการปรับปรุงความปลอดภัยของโมเดล AI ในอนาคต
งานวิจัยแสดงให้เห็นว่าโมเดล AI นั้นฉลาดกว่าที่เราคิดไว้เสียอีก ปัญหาใหญ่ที่สุดอย่างหนึ่งของโมเดล LLM ซึ่งเป็นเบื้องหลังแชทบอทที่ทรงพลังที่สุดอย่าง ChatGPT, Gemini และ Copilot ก็คือพวกมันทำตัวเหมือนกล่องดำ
เราสามารถป้อนข้อมูลและรับผลลัพธ์จากแชทบอทได้ แต่การที่แชทบอทให้คำตอบที่เจาะจงนั้นยังคงเป็นปริศนา แม้แต่สำหรับนักวิจัยที่สร้างแชทบอทขึ้นมาเองก็ตาม
สิ่งนี้ทำให้ยากที่จะคาดการณ์ว่าแบบจำลองอาจเกิดภาพหลอนหรือให้ผลลัพธ์ที่ผิดพลาดเมื่อใด นักวิจัยยังได้สร้างกำแพงกั้นเพื่อป้องกันไม่ให้ AI ตอบคำถามอันตราย แต่พวกเขาไม่ได้อธิบายว่าทำไมกำแพงกั้นบางอย่างจึงมีประสิทธิภาพมากกว่าอุปสรรคอื่นๆ
ตัวแทน AI ยังมีความสามารถในการ "ให้รางวัลแก่การแฮ็ก" ได้ด้วย ในบางกรณี โมเดล AI สามารถโกหกผู้ใช้เกี่ยวกับสิ่งที่พวกเขาทำหรือกำลังพยายามทำ
แม้ว่าโมเดล AI ในปัจจุบันจะสามารถให้เหตุผลและสร้างลำดับความคิดได้ แต่การทดลองบางอย่างแสดงให้เห็นว่าโมเดลดังกล่าวยังไม่สะท้อนถึงกระบวนการที่โมเดลใช้ในการหาคำตอบได้อย่างแม่นยำ
โดยพื้นฐานแล้ว เครื่องมือที่นักวิจัย Anthropic พัฒนาขึ้นนั้นมีความคล้ายคลึงกับเครื่องสแกน fMRI ที่นักประสาทวิทยาใช้ในการสแกนสมองมนุษย์ ด้วยการนำไปประยุกต์ใช้กับแบบจำลอง Claude 3.5 Haiku Anthropic จึงสามารถเข้าใจถึงวิธีการทำงานของแบบจำลอง LLM ได้
นักวิจัยพบว่าแม้ว่าคล็อดจะได้รับการฝึกให้ทำนายคำถัดไปในประโยคเท่านั้น แต่ในงานบางงาน คล็อดก็เรียนรู้ที่จะวางแผนในระยะยาวมากขึ้น
ตัวอย่างเช่น เมื่อได้รับมอบหมายให้เขียนบทกวี คล็อดจะค้นหาคำที่เข้ากับธีมและสัมผัสก่อน จากนั้นจึงทำงานย้อนกลับเพื่อเขียนบทกวีให้สมบูรณ์
Claude มีภาษา AI ร่วมกันด้วย แม้ว่าจะได้รับการฝึกฝนให้รองรับหลายภาษา แต่ Claude จะคิดในภาษานั้นก่อน จากนั้นจึงแสดงผลลัพธ์ในภาษาใดก็ได้ที่รองรับ
นอกจากนี้ หลังจากมอบปัญหาที่ยากให้กับคล็อด แต่จงใจเสนอวิธีแก้ปัญหาที่ผิด นักวิจัยก็ค้นพบว่าคล็อดสามารถโกหกเกี่ยวกับแนวคิดของเขาได้ โดยทำตามคำแนะนำเพื่อเอาใจผู้ใช้
ในกรณีอื่นๆ เมื่อถูกถามคำถามง่ายๆ ที่แบบจำลองสามารถตอบได้ทันทีโดยไม่ต้องใช้เหตุผล คล็อดก็ยังคงสร้างกระบวนการใช้เหตุผลปลอมๆ ขึ้นมา
Josh Baston นักวิจัยจาก Anthropic กล่าวว่า แม้ว่า Claude จะอ้างว่าได้ทำการคำนวณแล้ว แต่เขากลับไม่พบสิ่งใดเกิดขึ้นเลย
ในขณะเดียวกัน ผู้เชี่ยวชาญโต้แย้งว่ามีการศึกษาที่แสดงให้เห็นว่าบางครั้งผู้คนไม่ได้เข้าใจตัวเองด้วยซ้ำ แต่เพียงสร้างคำอธิบายที่สมเหตุสมผลเพื่อสนับสนุนการตัดสินใจเท่านั้น
โดยทั่วไปแล้ว ผู้คนมักจะคิดในลักษณะเดียวกัน นี่คือเหตุผลที่นักจิตวิทยาค้นพบอคติทางปัญญาที่พบบ่อย
อย่างไรก็ตาม LLM สามารถทำผิดพลาดได้ในขณะที่มนุษย์ทำไม่ได้ เนื่องจากวิธีการสร้างคำตอบนั้นแตกต่างจากวิธีการทำงานของเราอย่างมาก
ทีม Anthropic ได้นำแนวทางที่จัดกลุ่มเซลล์ประสาทเป็นวงจรตามลักษณะเฉพาะมาใช้แทนการวิเคราะห์เซลล์ประสาทแต่ละเซลล์ทีละเซลล์เหมือนอย่างที่เทคนิคก่อนหน้านี้ทำ
Baston กล่าวว่าแนวทางนี้ช่วยให้เข้าใจว่าส่วนประกอบต่างๆ มีบทบาทอย่างไร และช่วยให้นักวิจัยสามารถติดตามกระบวนการอนุมานทั้งหมดได้ผ่านชั้นต่างๆ ของเครือข่าย
วิธีนี้ยังมีข้อจำกัดอยู่ว่าเป็นเพียงการประมาณเท่านั้นและไม่ได้สะท้อนกระบวนการประมวลผลข้อมูลทั้งหมดของ LLM โดยเฉพาะกระบวนการเปลี่ยนแปลงความสนใจ ซึ่งมีความสำคัญมากในขณะที่ LLM ให้ผลลัพธ์
นอกจากนี้ การระบุวงจรเครือข่ายประสาท แม้จะเป็นประโยคที่มีความยาวเพียงไม่กี่สิบคำ ก็ต้องใช้เวลาหลายชั่วโมงอย่างเชี่ยวชาญ พวกเขากล่าวว่ายังไม่ชัดเจนว่าจะขยายเทคนิคนี้เพื่อวิเคราะห์ประโยคที่ยาวขึ้นได้อย่างไร
นอกเหนือจากข้อจำกัดแล้ว ความสามารถของ LLM ในการตรวจสอบการใช้เหตุผลภายในยังเปิดโอกาสใหม่ๆ ในการควบคุมระบบ AI เพื่อให้แน่ใจถึงความปลอดภัย
ในเวลาเดียวกัน ยังสามารถช่วยให้นักวิจัยพัฒนาวิธีการฝึกอบรมใหม่ๆ ปรับปรุงอุปสรรคในการควบคุม AI และลดภาพลวงตาและผลลัพธ์ที่เข้าใจผิดได้อีกด้วย
ที่มา: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html
การแสดงความคิดเห็น (0)