ด้วยเหตุนี้ แม้แต่การกำหนดค่าโมเดลปัญญาประดิษฐ์ที่มีประสิทธิภาพดีที่สุดที่พวกเขาทดสอบ ซึ่งก็คือ GPT-4-Turbo ของ OpenAI ก็ยังสามารถทำอัตราตอบถูกต้องได้เพียง 79% เท่านั้น แม้จะอ่านโปรไฟล์ทั้งหมด และมักพบกับ "ภาพหลอน" ของตัวเลขหรือเหตุการณ์ที่ไม่จริง
“อัตราการทำงานแบบนั้นถือว่ายอมรับไม่ได้เลย” Anand Kannappan ผู้ก่อตั้งร่วมของ Patronus AI กล่าว “อัตราคำตอบที่ถูกต้องจะต้องสูงกว่านี้มากจึงจะสามารถทำงานอัตโนมัติและพร้อมสำหรับการผลิตได้”
ผลการวิจัยเน้นย้ำถึงความท้าทายบางประการที่โมเดล AI ต้องเผชิญ เนื่องจากบริษัทขนาดใหญ่ โดยเฉพาะในอุตสาหกรรมที่มีกฎระเบียบควบคุมสูง เช่น ภาคการเงิน มักมองหาการนำเทคโนโลยีขั้นสูงเข้ามาใช้ในกระบวนการทำงาน ไม่ว่าจะเป็นบริการลูกค้าหรือการวิจัย
“ภาพลวงตา” ข้อมูลทางการเงิน
ความสามารถในการดึงตัวเลขสำคัญและวิเคราะห์งบการเงินได้อย่างรวดเร็วได้รับการยกย่องว่าเป็นหนึ่งในแอปพลิเคชั่นที่มีแนวโน้มมากที่สุดสำหรับแชทบอทตั้งแต่ ChatGPT เปิดตัวเมื่อปลายปีที่แล้ว
เอกสารที่ยื่นต่อ SEC ประกอบด้วยข้อมูลที่สำคัญ และหากบอทสามารถสรุปข้อมูลได้อย่างแม่นยำหรือตอบคำถามเกี่ยวกับเนื้อหาได้อย่างรวดเร็ว ก็อาจทำให้ผู้ใช้มีความได้เปรียบในอุตสาหกรรมการเงินที่มีการแข่งขันสูง
ในช่วงปีที่ผ่านมา Bloomberg LP ได้พัฒนาโมเดล AI สำหรับข้อมูลทางการเงินของตัวเอง และศาสตราจารย์จากโรงเรียนธุรกิจได้ศึกษาว่า ChatGPT สามารถวิเคราะห์พาดหัวข่าวทางการเงินได้หรือไม่
ในขณะเดียวกัน JPMorgan กำลังพัฒนาเครื่องมือการลงทุนอัตโนมัติที่ขับเคลื่อนด้วย AI การคาดการณ์ล่าสุดของ McKinsey ระบุว่า AI เชิงสร้างสรรค์สามารถส่งเสริมอุตสาหกรรมการธนาคารได้เป็นล้านล้านดอลลาร์ต่อปี
แต่ยังมีหนทางอีกยาวไกล เมื่อ Microsoft เปิดตัว Bing Chat ร่วมกับ GPT ของ OpenAI เป็นครั้งแรก บริษัทได้ใช้แชทบอทเพื่อสรุปข่าวประชาสัมพันธ์รายได้อย่างรวดเร็ว ผู้สังเกตการณ์สังเกตเห็นอย่างรวดเร็วว่าตัวเลขที่ AI ปล่อยออกมานั้นบิดเบือนหรืออาจถึงขั้นแต่งขึ้น
ข้อมูลเดียวกันแต่คำตอบต่างกัน
ส่วนหนึ่งของความท้าทายในการนำ LLM มาใช้ในผลิตภัณฑ์ในโลกแห่งความเป็นจริงก็คือ อัลกอริธึมนั้นไม่มีการกำหนดตายตัว ซึ่งหมายความว่าอัลกอริธึมนั้นไม่ได้รับประกันว่าจะสร้างผลลัพธ์เดียวกันได้หากได้รับอินพุตเดียวกัน ซึ่งหมายความว่าบริษัทต่างๆ จำเป็นต้องทำการทดสอบที่เข้มงวดยิ่งขึ้นเพื่อให้แน่ใจว่า AI ทำงานได้อย่างถูกต้อง ไม่หลุดประเด็น และให้ผลลัพธ์ที่เชื่อถือได้
Patronus AI ได้สร้างชุดคำถามและคำตอบมากกว่า 10,000 ข้อที่รวบรวมมาจากเอกสารที่ยื่นต่อ SEC จากบริษัทจดทะเบียนขนาดใหญ่ที่จดทะเบียนในตลาดหลักทรัพย์ ชุดข้อมูลดังกล่าวประกอบด้วยคำตอบที่ถูกต้อง รวมถึงตำแหน่งที่แน่นอนในไฟล์ที่กำหนดเพื่อค้นหาคำตอบเหล่านั้น
คำตอบไม่สามารถนำมาใช้ได้โดยตรงจากข้อความ และบางคำถามต้องใช้การคำนวณหรือการใช้เหตุผลเบื้องต้น
แบบทดสอบย่อย 150 คำถามเกี่ยวข้องกับโมเดล LLM สี่โมเดล ได้แก่ GPT-4 และ GPT-4-Turbo ของ OpenAI, Claude 2 ของ Anthropic และ Llama 2 ของ Meta
ผลลัพธ์ก็คือ เมื่อ GPT-4-Turbo ได้รับสิทธิ์ในการเข้าถึงเอกสารที่ยื่นต่อ SEC ก็มีอัตราความแม่นยำเพียง 85% เท่านั้น (เทียบกับ 88% ถ้าไม่สามารถเข้าถึงข้อมูลได้) ถึงแม้ว่ามนุษย์จะชี้เมาส์ไปที่ข้อความที่แน่นอนเพื่อให้ AI ค้นหาคำตอบก็ตาม
Llama 2 ซึ่งเป็นโมเดล AI โอเพนซอร์สที่พัฒนาโดย Meta มี "ภาพหลอน" มากที่สุด โดยตอบผิด 70% และตอบถูกเพียง 19% เมื่อได้รับสิทธิ์เข้าถึงส่วนหนึ่งของเอกสารพื้นฐาน
Claude 2 ของ Anthropic ทำงานได้ดีเมื่อได้รับ "บริบทยาว" ซึ่งรวมเอกสาร SEC ที่เกี่ยวข้องเกือบทั้งหมดไว้กับคำถามด้วย โดยสามารถตอบคำถามที่ถูกถามได้ 75% ตอบผิด 21% และปฏิเสธที่จะตอบ 3% นอกจากนี้ GPT-4-Turbo ยังทำงานได้ดีเมื่อได้รับบริบทยาว โดยตอบคำถามได้ถูกต้อง 79% และตอบผิด 17%
(ตามรายงานของซีเอ็นบีซี)
การแข่งขันของ Big Tech ในการลงทุนในสตาร์ทอัพด้าน AI
เทคโนโลยี AI ปฏิวัติธุรกิจเริ่มต้นด้านอีคอมเมิร์ซ
AI สามารถเปลี่ยนความคิดของมนุษย์ให้เป็นภาพที่สมจริงได้สำเร็จเป็นครั้งแรก
แหล่งที่มา
การแสดงความคิดเห็น (0)