การแปลโดยเครื่องเป็นหนึ่งในการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์ที่ประสบความสำเร็จมากที่สุดในการประมวลผลภาษาธรรมชาติ ระบบการแปลโดยเครื่องที่มีคุณภาพสูง เช่น Google Translate หรือ Microsoft Bing Translator จำเป็นต้องมีชุดข้อมูลสองภาษาขนาดใหญ่ ซึ่งมีจำนวนคู่ประโยคมากถึงล้านคู่ เพื่อฝึกโมเดล
อย่างไรก็ตาม ภาษาต่างๆ มากมายในโลก ไม่มีทรัพยากรเพียงพอ ดังนั้น การสร้างแบบจำลองการแปลด้วยเครื่องที่มีประสิทธิภาพสำหรับภาษาที่มีทรัพยากรไม่เพียงพอ รวมถึงภาษาในภูมิภาคเอเชียตะวันออกเฉียงใต้ จึงเป็นเรื่องเร่งด่วนและท้าทายอย่างยิ่ง
ล่าสุดสถาบันเทคโนโลยีสารสนเทศ (Vietnam Academy of Science and Technology) ได้ทำการวิจัยและเชี่ยวชาญเทคโนโลยีการแปลด้วยเครื่องที่ล้ำหน้าที่สุดในปัจจุบัน นอกจากนี้ หน่วยงานนี้ยังได้สร้างระบบแปลข้อความหลายภาษาระหว่างภาษาเวียดนามและภาษาในภูมิภาคต่างๆ เช่น ลาว เขมร ไทย มาเลเซีย และอินโดนีเซียได้สำเร็จอีกด้วย
ตามที่นักพัฒนาซอฟต์แวร์ได้กล่าวไว้ ภาษาต่างๆ เช่น ลาว ไทย และเขมร ก่อให้เกิดความท้าทายครั้งใหญ่ในการสร้างแบบจำลองการแปลด้วยเครื่อง ความยากนี้ไม่ได้มาจากเพียงการขาดแคลนข้อมูลสองภาษาเท่านั้น แต่ยังมาจากภาษาเหล่านี้ที่มีโครงสร้างทางสัณฐานวิทยาที่หลากหลาย ขาดการแบ่งคำ การแบ่งประโยค และความหมายหลายความหมายอีกด้วย
โมเดล AI ที่พัฒนาโดยสถาบันเทคโนโลยีสารสนเทศได้ "เรียนรู้" วิธี "ปรับตัว" ให้เข้ากับคุณสมบัติพิเศษทั้งหมดของภาษาต่างๆ ข้างต้น จากนั้นซอฟต์แวร์จะช่วยให้สามารถเพิ่มภาษาอื่นๆ ได้อย่างรวดเร็วเมื่อจำเป็น โดยมีคุณภาพการแปลเทียบเท่ากับผลิตภัณฑ์ต่างประเทศขั้นสูง
สิ่งพิเศษคือซอฟต์แวร์แปลภาษาหลายภาษาจะทำงานแยกกัน จัดเก็บข้อมูลในเครื่อง และไม่ใช้ API ของผู้ให้บริการรายอื่น ซึ่งช่วยให้มั่นใจได้ถึงความปลอดภัย ความปลอดภัย และไม่มีการรั่วไหลของข้อมูล
ปัญหาอย่างหนึ่งของระบบแปล เช่น Google Translate หรือ Bing Translator ก็คือความสามารถในการปรับให้เข้ากับโดเมนเฉพาะได้ กล่าวคือ ระบบเหล่านี้สามารถแปลได้ดีสำหรับโดเมนภาษาที่นิยมทั่วไปที่ให้บริการแก่คนทั่วไป แต่คุณภาพการแปลกลับไม่ดีสำหรับโดเมนภาษาเฉพาะ เช่น การแพทย์ กฎหมาย ความปลอดภัย เป็นต้น
เพื่อแก้ไขข้อบกพร่องดังกล่าวข้างต้น ทีมวิจัยของสถาบันเทคโนโลยีสารสนเทศได้พัฒนาระบบการแปลที่เน้นภาษาเวียดนาม ซึ่งสามารถแปลสองทางเป็นภาษาที่มีทรัพยากรน้อยและมีคุณภาพดี
โดยเฉพาะอย่างยิ่งซอฟต์แวร์นี้มีคุณภาพเท่ากับหรือสูงกว่า Google Translate สำหรับข้อความเดียวกัน นอกจากนี้ซอฟต์แวร์นี้ยังไม่จำกัดความยาวของข้อความอีกด้วย
ในช่วงปี พ.ศ. 2565-2566 ระบบจะมุ่งเน้นการใช้เทคนิค Large Language Models (LLMs) โดยให้ความสำคัญกับคู่ภาษาต่อไปนี้: ภาษาเวียดนาม - เขมร, ภาษาเวียดนาม - ลาว, ภาษาเวียดนาม - ไทย, ภาษาเวียดนาม - มาเลย์ และภาษาเวียดนาม - อินโดนีเซีย
ด้วยภาษาอังกฤษ (แหล่งข้อมูลที่มีอยู่มากมายและเป็นจุดแข็งที่สำคัญของ Google) ซอฟต์แวร์ของสถาบันเทคโนโลยีสารสนเทศจึงรับประกันคุณภาพได้เกือบเทียบเท่ากับ Google Translate โดยเฉพาะอย่างยิ่ง ระบบมีความสามารถในการปรับแต่งให้เหมาะกับโดเมนภาษาเฉพาะ เช่น การแพทย์ กฎหมาย... ตามความต้องการเฉพาะของพันธมิตร
ระบบนี้ได้รับการพัฒนาขึ้นโดยทีมวิจัยโดยใช้โครงสร้างพื้นฐานทางเทคนิคที่รองรับการจัดเก็บข้อมูลภาษาขนาดใหญ่และศักยภาพซูเปอร์คอมพิวเตอร์ปัญญาประดิษฐ์/การเรียนรู้ของเครื่องจักร (AI/ML) ที่แข็งแกร่งที่สุดในเวียดนาม
สถาบันเทคโนโลยีสารสนเทศมีความเชี่ยวชาญด้านเทคโนโลยีที่เกี่ยวข้องอย่างครอบคลุม ดังนั้นหน่วยงานนี้จึงสามารถขยายการประยุกต์ใช้ไปยังภาษาเป้าหมายใหม่ๆ ได้อย่างง่ายดาย รวมถึงภาษาชนกลุ่มน้อยในเวียดนาม (ซึ่งมักมีทรัพยากรข้อมูลน้อยมาก) เช่น ภาษาม้ง ภาษาไทย เป็นต้น และภาษาต่างประเทศยอดนิยม เช่น จีน ฝรั่งเศส รัสเซีย เป็นต้น เมื่อจำเป็น
ซอฟต์แวร์แปลภาษาหลายภาษา Made in Vietnam นี้คาดว่าจะเป็นโซลูชันสำหรับปัญหาการเข้าถึงข้อมูลของชนกลุ่มน้อย
แหล่งที่มา
การแสดงความคิดเห็น (0)