OpenAI ยังไม่ได้เปิดเผยมากนักเกี่ยวกับวิธีการฝึก ChatGPT-4 แต่โมเดลภาษาขนาดใหญ่ (LLM) มักถูกฝึกจากข้อความที่รวบรวมมาจากอินเทอร์เน็ต ซึ่งภาษาอังกฤษเป็นภาษากลาง ประมาณ 93% ของข้อมูลการฝึกของ ChatGPT-3 เป็นภาษาอังกฤษ

ใน Common Crawl ซึ่งเป็นเพียงหนึ่งในชุดข้อมูลที่ใช้ฝึกโมเดล AI ภาษาอังกฤษคิดเป็น 47% ของคลังข้อมูลทั้งหมด โดยภาษายุโรปอื่นๆ คิดเป็น 38% ในทางกลับกัน ภาษาจีนและญี่ปุ่นรวมกันคิดเป็นเพียง 9% เท่านั้น

ภาพหน้าจอ 2024 01 31 ที่ 151709.png
ข้อมูลส่วนใหญ่ที่ใช้ในการฝึกอบรม LLM เป็นภาษาอังกฤษหรือภาษาอื่นๆ ของยุโรป

ปัญหานี้ไม่ได้จำกัดอยู่แค่ ChatGPT เพียงอย่างเดียว ดังที่นาธาเนียล โรบินสัน นักวิจัยจากมหาวิทยาลัยจอห์นส์ ฮอปกินส์ และเพื่อนร่วมงานของเขาได้ค้นพบ ปริญญานิติศาสตรมหาบัณฑิต (LLM) ทุกสาขา มีประสิทธิภาพดีกว่าในภาษาที่ใช้ทรัพยากรสูง ซึ่งมีข้อมูลการฝึกอบรมมากมาย เมื่อเทียบกับภาษาที่ใช้ทรัพยากรต่ำ ซึ่งมีข้อมูลไม่เพียงพอ

นี่เป็นปัญหาสำหรับผู้ที่หวังจะนำ AI ไปสู่ประเทศยากจนเพื่อพัฒนาทุกอย่าง ตั้งแต่ การศึกษาไป จนถึงการดูแลสุขภาพ ดังนั้น นักวิจัยทั่วโลกจึงกำลังพยายามทำให้ AI ใช้งานได้หลายภาษามากขึ้น

เมื่อเดือนกันยายนที่ผ่านมา รัฐบาล อินเดียได้เปิดตัวแชทบอทที่ช่วยให้เกษตรกรได้รับข้อมูลที่เป็นประโยชน์จากรัฐบาล

Shankar Maruwada จากมูลนิธิ EkStep ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่ช่วยสร้างแชทบอท กล่าวว่า บอททำงานโดยการผสมผสานโมเดลภาษาสองประเภทเข้าด้วยกัน ทำให้ผู้ใช้สามารถส่งคำถามเป็นภาษาแม่ของตนเองได้ คำถามเหล่านี้จะถูกส่งต่อไปยังซอฟต์แวร์แปลภาษาอัตโนมัติที่ศูนย์วิจัยในอินเดีย ซึ่งจะแปลเป็นภาษาอังกฤษก่อนส่งต่อคำตอบไปยัง LLM ซึ่งประมวลผลคำตอบนั้น และสุดท้าย คำตอบจะถูกแปลกลับเป็นภาษาแม่ของผู้ใช้

กระบวนการนี้อาจได้ผล แต่การแปลคำถามเป็นภาษาที่ "นิยมใช้" ในหลักสูตร LLM ถือเป็นวิธีแก้ปัญหาที่ยุ่งยาก ภาษาสะท้อนถึงวัฒนธรรมและโลกทัศน์ งานวิจัยในปี 2022 โดย Rebecca Johnson นักวิจัยจากมหาวิทยาลัยซิดนีย์ พบว่า ChatGPT-3 ให้คำตอบในหัวข้อต่างๆ เช่น การควบคุมอาวุธปืนและนโยบายผู้ลี้ภัย ซึ่งเทียบเคียงได้กับค่านิยมของชาวอเมริกันที่แสดงไว้ในแบบสำรวจ World Values Survey

ด้วยเหตุนี้ นักวิจัยจำนวนมากจึงพยายามทำให้ผู้สำเร็จการศึกษาระดับปริญญาโทสาขานิติศาสตร์ (LLM) สามารถใช้งานภาษาที่ไม่ค่อยได้ใช้ได้อย่างคล่องแคล่ว ในทางเทคนิค วิธีหนึ่งคือการปรับเปลี่ยนโทเค็นไนเซอร์ของภาษานั้นๆ บริษัทสตาร์ทอัพของอินเดียชื่อ Sarvam AI ได้พัฒนาโทเค็นไนเซอร์ที่ปรับแต่งให้เหมาะสมกับภาษาฮินดี หรือที่เรียกว่า OpenHathi model ซึ่งเป็นหลักสูตรปริญญานิติศาสตร์ (LLM) ที่ปรับแต่งให้เหมาะสมกับภาษาเทวนาครี (อินเดีย) ซึ่งสามารถลดต้นทุนการตอบคำถามได้อย่างมาก

อีกวิธีหนึ่งคือการปรับปรุงชุดข้อมูลที่ใช้ฝึกอบรม LLM ในเดือนพฤศจิกายน ทีมนักวิจัยจากมหาวิทยาลัยโมฮัมเหม็ด บิน ซายิด ในอาบูดาบี ได้เปิดตัวแบบจำลองภาษาอาหรับเวอร์ชันล่าสุด ชื่อว่า “Jais” ซึ่งมีจำนวนพารามิเตอร์เพียงหนึ่งในหกของ ChatGPT-3 แต่มีประสิทธิภาพเทียบเท่ากับภาษาอาหรับ

ทิโมธี บอลด์วิน อธิการบดีมหาวิทยาลัยโมฮัมเหม็ด บิน ซายิด กล่าวว่า แม้ว่าทีมของเขาจะแปลงข้อความภาษาอาหรับเป็นดิจิทัลจำนวนมากแล้ว แต่ข้อความภาษาอังกฤษบางส่วนก็ยังคงรวมอยู่ในแบบจำลอง แนวคิดบางอย่างเหมือนกันในทุกภาษาและสามารถเรียนรู้ได้ในทุกภาษา

แนวทางที่สามคือการปรับแต่งโมเดลหลังจากผ่านการฝึกอบรมแล้ว ทั้ง Jais และ OpenHathi มีคำถาม-คำตอบที่มนุษย์สร้างขึ้นหลายคู่ เช่นเดียวกับแชทบอทจากฝั่งตะวันตก เพื่อป้องกันข้อมูลที่ผิดพลาด

เออร์นี่ บอท ปริญญานิติศาสตร์ (LLM) จากไป่ตู้ บริษัทเทคโนโลยียักษ์ใหญ่ของจีน ได้รับการปรับปรุงเพื่อจำกัดคำพูดที่อาจสร้างความไม่พอใจให้กับรัฐบาล แบบจำลองยังสามารถเรียนรู้จากความคิดเห็นของมนุษย์ โดยผู้ใช้จะให้คะแนนคำตอบของ LLM แต่การทำเช่นนี้เป็นเรื่องยากสำหรับหลายภาษาในภูมิภาคที่พัฒนาน้อยกว่า เนื่องจากจำเป็นต้องจ้างบุคลากรที่มีคุณสมบัติเหมาะสมมาวิพากษ์วิจารณ์คำตอบของเครื่องจักร

(ตามรายงานของ Economist)

กองทัพบกสหรัฐฯ ใช้ AI เพื่อประมาณราคาแร่ธาตุสำคัญ กองทัพบกสหรัฐฯ กำลังวางแผนที่จะพัฒนาโปรแกรมคอมพิวเตอร์ที่มีความสามารถในการประมาณราคาและคาดการณ์การจัดหาของนิกเกิล โคบอลต์ และแร่ธาตุสำคัญอื่นๆ