GPT และโมเดล AI อันทรงพลังยังคงต้อง 'ยอมแพ้' ก่อนการทดสอบนี้

ด้วยเหตุนี้ แม้แต่การกำหนดค่าโมเดลปัญญาประดิษฐ์ที่มีประสิทธิภาพดีที่สุดที่พวกเขาทดสอบ ซึ่งก็คือ GPT-4-Turbo ของ OpenAI ก็ยังบรรลุอัตราคำตอบที่ถูกต้องเพียง 79% เท่านั้น แม้จะอ่านโปรไฟล์ทั้งหมดและมักจะ "ประสาทหลอน" ถึงตัวเลขหรือเหตุการณ์ที่ไม่จริงก็ตาม

“อัตราประสิทธิภาพแบบนั้นเป็นสิ่งที่ยอมรับไม่ได้อย่างสิ้นเชิง” อานันท์ กันนัปปัน ผู้ร่วมก่อตั้ง Patronus AI กล่าว “อัตราการตอบที่ถูกต้องต้องสูงกว่านี้มาก จึงจะสามารถทำงานอัตโนมัติและพร้อมสำหรับการใช้งานจริงได้”

ผลการวิจัยเน้นย้ำถึงความท้าทายบางประการที่โมเดล AI ต้องเผชิญ เนื่องจากบริษัทขนาดใหญ่ โดยเฉพาะในอุตสาหกรรมที่มีกฎระเบียบเข้มงวด เช่น การเงิน มักมองหาการนำเทคโนโลยีขั้นสูงมาใช้ในการดำเนินงาน ไม่ว่าจะเป็นด้านการบริการลูกค้าหรือการวิจัย

“ภาพลวงตา” ข้อมูลทางการเงิน

ความสามารถในการดึงตัวเลขสำคัญและวิเคราะห์งบการเงินได้อย่างรวดเร็วถือเป็นหนึ่งในแอปพลิเคชันที่มีแนวโน้มมากที่สุดสำหรับแชทบอทนับตั้งแต่ ChatGPT เปิดตัวเมื่อปลายปีที่แล้ว

เอกสารที่ยื่นต่อ SEC ประกอบด้วยข้อมูลที่สำคัญ และหากบอทสามารถสรุปหรือตอบคำถามเกี่ยวกับเนื้อหาได้อย่างถูกต้องและรวดเร็ว ก็อาจทำให้ผู้ใช้ได้เปรียบในอุตสาหกรรมการเงินที่มีการแข่งขันสูง

llm ภาพ 100941414 large.jpg — AI ยังคงประสบปัญหาในขั้นตอนการสังเคราะห์ข้อมูล ซึ่งเป็นงานที่คาดหวังว่าจะช่วยเหลือมนุษย์ได้มากที่สุด

ในช่วงปีที่ผ่านมา Bloomberg LP ได้พัฒนาโมเดล AI ของตัวเองสำหรับข้อมูลทางการเงิน และศาสตราจารย์จากโรงเรียนธุรกิจก็ได้ศึกษาวิจัยว่า ChatGPT สามารถวิเคราะห์พาดหัวข่าวทางการเงินได้หรือไม่

ในขณะเดียวกัน เจพีมอร์แกนกำลังพัฒนาเครื่องมือการลงทุนอัตโนมัติที่ขับเคลื่อนด้วย AI เช่นกัน การคาดการณ์ล่าสุดของ McKinsey ระบุว่า AI เชิงสร้างสรรค์ (generative AI) อาจช่วยกระตุ้นอุตสาหกรรมธนาคารได้หลายล้านล้านดอลลาร์ต่อปี

แต่ยังมีหนทางอีกยาวไกล เมื่อ Microsoft เปิดตัว Bing Chat ด้วย GPT ของ OpenAI เป็นครั้งแรก พวกเขาใช้แชทบอทเพื่อสรุปข่าวประชาสัมพันธ์ผลประกอบการอย่างรวดเร็ว ผู้สังเกตการณ์สังเกตเห็นได้อย่างรวดเร็วว่าตัวเลขที่ AI คำนวณออกมานั้นมีความคลาดเคลื่อน หรือแม้กระทั่งถูกแต่งขึ้น

ข้อมูลเดียวกัน คำตอบต่างกัน

ส่วนหนึ่งของความท้าทายในการนำหลักสูตร LLM มาใช้ในผลิตภัณฑ์จริงคือ อัลกอริทึมนั้นไม่มีการกำหนดตายตัว หมายความว่าอัลกอริทึมไม่ได้รับประกันว่าจะให้ผลลัพธ์เดียวกันเมื่อได้รับข้อมูลอินพุตเดียวกัน ซึ่งหมายความว่าบริษัทต่างๆ จำเป็นต้องทำการทดสอบที่เข้มงวดมากขึ้น เพื่อให้มั่นใจว่า AI ทำงานได้อย่างถูกต้อง ไม่หลุดประเด็น และให้ผลลัพธ์ที่เชื่อถือได้

Patronus AI สร้างชุดคำถามและคำตอบมากกว่า 10,000 ข้อที่รวบรวมจากเอกสารที่ยื่นต่อ SEC จากบริษัทมหาชนขนาดใหญ่ เรียกว่า FinanceBench ชุดข้อมูลนี้ประกอบด้วยคำตอบที่ถูกต้องและตำแหน่งที่แน่นอนในไฟล์ที่กำหนดเพื่อค้นหาคำตอบเหล่านั้น

ไม่สามารถนำคำตอบทั้งหมดมาจากข้อความโดยตรงได้ และคำถามบางข้อต้องใช้การคำนวณหรือการใช้เหตุผลเบื้องต้น

แบบทดสอบย่อย 150 คำถามประกอบด้วยโมเดล LLM สี่โมเดล ได้แก่ GPT-4 และ GPT-4-Turbo ของ OpenAI, Claude 2 ของ Anthropic และ Llama 2 ของ Meta

ผลลัพธ์ที่ได้คือ เมื่อได้รับสิทธิ์ในการเข้าถึงเอกสารที่ยื่นต่อ SEC พื้นฐาน GPT-4-Turbo จะมีอัตราความแม่นยำเพียง 85% เท่านั้น (เมื่อเทียบกับคำตอบที่ไม่ถูกต้อง 88% เมื่อไม่ได้รับสิทธิ์ในการเข้าถึงข้อมูล) แม้ว่า AI จะใช้เมาส์เป็นเมาส์เพื่อค้นหาข้อความที่แน่นอนเพื่อค้นหาคำตอบก็ตาม

Llama 2 ซึ่งเป็นโมเดล AI โอเพนซอร์สที่พัฒนาโดย Meta มีจำนวน "ภาพหลอน" สูงที่สุด โดยตอบผิดถึง 70% และตอบถูกเพียง 19% เมื่อได้รับอนุญาตให้เข้าถึงเอกสารพื้นฐานบางส่วน

แบบทดสอบ Claude 2 ของ Anthropic ทำงานได้ดีเมื่อได้รับ "บริบทยาว" ซึ่งรวมเอกสารที่ยื่นต่อ SEC ที่เกี่ยวข้องเกือบทั้งหมดไว้กับคำถาม แบบทดสอบนี้สามารถตอบคำถามได้ 75% ของคำถามทั้งหมด ตอบผิด 21% และปฏิเสธที่จะตอบ 3% แบบทดสอบ GPT-4-Turbo ก็ทำงานได้ดีเมื่อได้รับบริบทยาวเช่นกัน โดยตอบคำถามได้ถูกต้อง 79% และตอบผิด 17%

(ตามรายงานของ CNBC)