OpenAI ยังไม่ได้เปิดเผยมากนักเกี่ยวกับวิธีการฝึก ChatGPT-4 แต่โมเดลภาษาขนาดใหญ่ (LLM) มักถูกฝึกจากข้อความที่รวบรวมมาจากอินเทอร์เน็ต ซึ่งภาษาอังกฤษเป็นภาษากลาง ประมาณ 93% ของข้อมูลการฝึกของ ChatGPT-3 เป็นภาษาอังกฤษ
ใน Common Crawl ซึ่งเป็นเพียงหนึ่งในชุดข้อมูลที่ใช้ฝึกโมเดล AI ภาษาอังกฤษคิดเป็น 47% ของคลังข้อมูลทั้งหมด โดยภาษายุโรปอื่นๆ คิดเป็น 38% ในทางกลับกัน ภาษาจีนและญี่ปุ่นรวมกันคิดเป็นเพียง 9% เท่านั้น
ปัญหานี้ไม่ได้จำกัดอยู่แค่ ChatGPT เพียงอย่างเดียว ดังที่นาธาเนียล โรบินสัน นักวิจัยจากมหาวิทยาลัยจอห์นส์ ฮอปกินส์ และเพื่อนร่วมงานของเขาได้ค้นพบ ปริญญานิติศาสตรมหาบัณฑิต (LLM) ทุกสาขา มีประสิทธิภาพดีกว่าในภาษาที่ใช้ทรัพยากรสูง ซึ่งมีข้อมูลการฝึกอบรมมากมาย เมื่อเทียบกับภาษาที่ใช้ทรัพยากรต่ำ ซึ่งมีข้อมูลไม่เพียงพอ
นี่เป็นปัญหาสำหรับผู้ที่หวังจะนำ AI ไปสู่ประเทศยากจนเพื่อพัฒนาทุกอย่าง ตั้งแต่ การศึกษาไป จนถึงการดูแลสุขภาพ ดังนั้น นักวิจัยทั่วโลกจึงกำลังพยายามทำให้ AI ใช้งานได้หลายภาษามากขึ้น
เมื่อเดือนกันยายนที่ผ่านมา รัฐบาล อินเดียได้เปิดตัวแชทบอทที่ช่วยให้เกษตรกรได้รับข้อมูลที่เป็นประโยชน์จากรัฐบาล
Shankar Maruwada จากมูลนิธิ EkStep ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่ช่วยสร้างแชทบอท กล่าวว่า บอททำงานโดยการผสมผสานโมเดลภาษาสองประเภทเข้าด้วยกัน ทำให้ผู้ใช้สามารถส่งคำถามเป็นภาษาแม่ของตนเองได้ คำถามเหล่านี้จะถูกส่งต่อไปยังซอฟต์แวร์แปลภาษาอัตโนมัติที่ศูนย์วิจัยในอินเดีย ซึ่งจะแปลเป็นภาษาอังกฤษก่อนส่งต่อคำตอบไปยัง LLM ซึ่งประมวลผลคำตอบนั้น และสุดท้าย คำตอบจะถูกแปลกลับเป็นภาษาแม่ของผู้ใช้
กระบวนการนี้อาจได้ผล แต่การแปลคำถามเป็นภาษาที่ "นิยมใช้" ในหลักสูตร LLM ถือเป็นวิธีแก้ปัญหาที่ยุ่งยาก ภาษาสะท้อนถึงวัฒนธรรมและโลกทัศน์ งานวิจัยในปี 2022 โดย Rebecca Johnson นักวิจัยจากมหาวิทยาลัยซิดนีย์ พบว่า ChatGPT-3 ให้คำตอบในหัวข้อต่างๆ เช่น การควบคุมอาวุธปืนและนโยบายผู้ลี้ภัย ซึ่งเทียบเคียงได้กับค่านิยมของชาวอเมริกันที่แสดงไว้ในแบบสำรวจ World Values Survey
ด้วยเหตุนี้ นักวิจัยจำนวนมากจึงพยายามทำให้ผู้สำเร็จการศึกษาระดับปริญญาโทสาขานิติศาสตร์ (LLM) สามารถใช้งานภาษาที่ไม่ค่อยได้ใช้ได้อย่างคล่องแคล่ว ในทางเทคนิค วิธีหนึ่งคือการปรับเปลี่ยนโทเค็นไนเซอร์ของภาษานั้นๆ บริษัทสตาร์ทอัพของอินเดียชื่อ Sarvam AI ได้พัฒนาโทเค็นไนเซอร์ที่ปรับแต่งให้เหมาะสมกับภาษาฮินดี หรือที่เรียกว่า OpenHathi model ซึ่งเป็นหลักสูตรปริญญานิติศาสตร์ (LLM) ที่ปรับแต่งให้เหมาะสมกับภาษาเทวนาครี (อินเดีย) ซึ่งสามารถลดต้นทุนการตอบคำถามได้อย่างมาก
อีกวิธีหนึ่งคือการปรับปรุงชุดข้อมูลที่ใช้ฝึกอบรม LLM ในเดือนพฤศจิกายน ทีมนักวิจัยจากมหาวิทยาลัยโมฮัมเหม็ด บิน ซายิด ในอาบูดาบี ได้เปิดตัวแบบจำลองภาษาอาหรับเวอร์ชันล่าสุด ชื่อว่า “Jais” ซึ่งมีจำนวนพารามิเตอร์เพียงหนึ่งในหกของ ChatGPT-3 แต่มีประสิทธิภาพเทียบเท่ากับภาษาอาหรับ
ทิโมธี บอลด์วิน อธิการบดีมหาวิทยาลัยโมฮัมเหม็ด บิน ซายิด กล่าวว่า แม้ว่าทีมของเขาจะแปลงข้อความภาษาอาหรับเป็นดิจิทัลจำนวนมากแล้ว แต่ข้อความภาษาอังกฤษบางส่วนก็ยังคงรวมอยู่ในแบบจำลอง แนวคิดบางอย่างเหมือนกันในทุกภาษาและสามารถเรียนรู้ได้ในทุกภาษา
แนวทางที่สามคือการปรับแต่งโมเดลหลังจากผ่านการฝึกอบรมแล้ว ทั้ง Jais และ OpenHathi มีคำถาม-คำตอบที่มนุษย์สร้างขึ้นหลายคู่ เช่นเดียวกับแชทบอทจากฝั่งตะวันตก เพื่อป้องกันข้อมูลที่ผิดพลาด
เออร์นี่ บอท ปริญญานิติศาสตร์ (LLM) จากไป่ตู้ บริษัทเทคโนโลยียักษ์ใหญ่ของจีน ได้รับการปรับปรุงเพื่อจำกัดคำพูดที่อาจสร้างความไม่พอใจให้กับรัฐบาล แบบจำลองยังสามารถเรียนรู้จากความคิดเห็นของมนุษย์ โดยผู้ใช้จะให้คะแนนคำตอบของ LLM แต่การทำเช่นนี้เป็นเรื่องยากสำหรับหลายภาษาในภูมิภาคที่พัฒนาน้อยกว่า เนื่องจากจำเป็นต้องจ้างบุคลากรที่มีคุณสมบัติเหมาะสมมาวิพากษ์วิจารณ์คำตอบของเครื่องจักร
(ตามรายงานของ Economist)
แหล่งที่มา
การแสดงความคิดเห็น (0)