
|
ส่วนต่อประสานผู้ใช้ของ v7 คีย์บอร์ดที่ผสานรวม AI ภาพ: ผู้เขียนเป็นผู้จัดหา ให้ |
ในการให้สัมภาษณ์กับ Tri Thức - Znews Tri Duc (เกิดปี 2003) ได้แบ่งปันแนวคิดของเขาเกี่ยวกับการประยุกต์ใช้ปัญญาประดิษฐ์เพื่อเปลี่ยนแปลงวิธีการป้อนภาษาเวียดนาม โครงการแป้นพิมพ์ v7 ของเขาได้พัฒนาเป็นเอกสารวิจัยและได้รับการยอมรับให้เข้าร่วมงาน IJCAI 2025 ซึ่งเป็นงานประชุมด้านปัญญาประดิษฐ์ที่มีชื่อเสียง
แม้ว่าวิธีการป้อนข้อมูลแบบเทเล็กซ์หรือ VNI จะได้รับความนิยมมานานหลายทศวรรษ แต่ก็ยังมีข้อจำกัดหลายประการในแง่ของประสบการณ์การใช้งาน ดังนั้น v7 จึงถูกสร้างขึ้นมาเพื่อเป็นเครื่องมือคาดเดาคำที่ใช้งานง่าย ช่วยลดเวลาในการพิมพ์ภาษาเวียดนามด้วยระบบ AI ที่ผสานรวมอยู่ด้วย
ความหลงใหลในภาษาและเทคโนโลยี
ด้วยความหลงใหลในภาษาและเทคโนโลยี ทำให้ดุ๊กเลือกเรียนวิชาเอกปัญญาประดิษฐ์ประยุกต์ที่มหาวิทยาลัยเทคโนโลยีโฮจิมินห์
ในระหว่างการศึกษา เขาได้ทำงานในโครงการต่างๆ เช่น การสร้างแบบจำลองภาษาขนาดใหญ่ (LLM) สำหรับภาษาเวียดนาม ซอฟต์แวร์สำหรับการแปลภาษาของชนกลุ่มน้อย และแชทบอทเพื่อสนับสนุนการรับสมัครนักศึกษา “ประสบการณ์เหล่านี้ช่วยให้ผมสร้างรากฐานความรู้ที่แข็งแกร่ง บ่มเพาะความหลงใหล และจุดประกายความปรารถนาที่จะนำ AI มาประยุกต์ใช้เพื่อสร้างผลิตภัณฑ์ที่เป็นประโยชน์ต่อชุมชน” เขากล่าว

|
Tri Duc มุ่งมั่นที่จะสร้างคุณค่าให้แก่ชีวิตด้วยการประยุกต์ใช้ปัญญาประดิษฐ์ (AI) ภาพ: ได้รับความอนุเคราะห์จากผู้ให้สัมภาษณ์ |
นอกจากนี้ ด้วยพื้นฐานความรู้ด้านภาษาจีนกลางและกวางตุ้ง ดึ๊กจึงตระหนักถึงความสัมพันธ์ระหว่างพินอิน/จยุตปิงกับการสะกดคำภาษาเวียดนาม สิ่งนี้ยังแสดงให้เห็นว่า ตรงกันข้ามกับความซับซ้อนของอักษรภาพ วิธีการป้อนข้อมูลพินอินของจีนนั้นต้องการเพียงแค่ป้อน "yn" เพื่อแสดงชื่อประเทศของเราในอักษรจีน ในขณะที่เทเล็กซ์หรือ VNI ต้องใช้ถึง 10 ปุ่มเพื่อแสดงคำว่า "เวียดนาม"
จากการสังเกต ดุ๊กตระหนักว่าในการสนทนาสั้นๆ ผู้ใช้มักจะย่อคำโดยคงพยัญชนะต้นไว้ เช่น "hs" สำหรับ "student" (นักเรียน) "ถ้ามนุษย์สามารถเข้าใจรูปแบบการเขียนแบบนี้ได้ง่ายๆ ปัญญาประดิษฐ์ก็สามารถเข้าใจได้อย่างแน่นอนหากได้รับการฝึกฝนด้วยข้อมูลที่ถูกต้อง" เขาอธิบายถึงสถานการณ์ที่นำไปสู่แนวคิดของเขา
แทนที่จะพิมพ์ตัวอักษรทั้งหมดแล้วค่อยเพิ่มเครื่องหมายกำกับเสียงเหมือนวิธีการป้อนข้อมูลแบบดั้งเดิม เช่น Telex หรือ VNI ซึ่งอาศัยกลไกเสริม v7 ใช้ AI ในการแนะนำคำที่คุณต้องการเขียน เทคโนโลยีนี้จะคาดเดาคำที่สมบูรณ์ได้อย่างแม่นยำโดยใช้จำนวนปุ่มน้อยที่สุด
ในระบบการเขียนภาษาเวียดนาม คำหนึ่งคำประกอบด้วยพยัญชนะต้น สระ และวรรณยุกต์ ตัวอย่างเช่น คำว่า "Nguyễn" ประกอบด้วย "ng" "uyên" และวรรณยุกต์ตก โดยอาศัยหลักการนี้ วิธีการป้อนข้อมูล v7 จึงถูกพัฒนาขึ้นเพื่อคาดเดาคำทั้งคำโดยใช้เพียงพยัญชนะต้นและวรรณยุกต์เท่านั้น ซึ่งช่วยลดจำนวนการกดแป้นพิมพ์ลงอย่างมากในขณะที่ยังคงรักษาความแม่นยำไว้ได้
ความท้าทายในการสอนภาษาเวียดนามให้กับ AI
ตามที่ดึ๊กกล่าว ความท้าทายที่ใหญ่ที่สุดคือการสอน AI ให้ "เข้าใจ" ภาษาเวียดนามเพื่อใช้วิธีการป้อนข้อมูลนี้ เขาได้ลองใช้โมเดลหลายแบบก่อนที่จะเลือก GPT-2 เป็นพื้นฐาน เนื่องจากสถาปัตยกรรม Transformers ของมันให้ความเข้าใจบริบทที่ดีและคาดเดาคำได้อย่างแม่นยำ
หลังจากเลือกโครงสร้างพื้นฐานแล้ว Duc ได้แทนที่ Tokenizer (ตัวเข้ารหัสคำศัพท์) ด้วยชุดคำศัพท์ภาษาเวียดนามที่เขาคิดขึ้นเองทั้งหมด วิศวกรได้คัดกรองและรวมคำศัพท์ภาษาเวียดนามที่ถูกต้องและสะกดถูกต้องทั้งหมด เพื่อให้มั่นใจถึงความสามารถในการประมวลผลที่ครอบคลุมและความสามารถในการคาดเดาคำใด ๆ ที่ผู้ใช้ต้องการเขียน
ความท้าทายอีกประการหนึ่งคือการสร้างสมดุลระหว่างประสิทธิภาพการทำนายและความเร็วในการตอบสนอง เพื่อให้มั่นใจว่าโมเดลสามารถทำงานได้แบบเรียลไทม์ทั้งบนคอมพิวเตอร์และโทรศัพท์ ในขณะเดียวกันก็ต้องมีประสิทธิภาพมากพอที่จะให้การทำนายที่ดีที่สุดเท่าที่จะเป็นไปได้ หลังจากการทดสอบอย่างต่อเนื่องเป็นเวลาสองเดือน เวอร์ชันปัจจุบันสามารถจัดวางคำที่ผู้ใช้ป้อนเกือบ 70% ไว้ที่ด้านบนได้อย่างถูกต้อง โดยมีความล่าช้าเพียง 0.03 วินาที
ในส่วนของวิธีการป้อนข้อมูลผ่านแป้นพิมพ์ จากการศึกษาหลายชิ้นที่ดุ๊กได้ค้นคว้าจากนักภาษาศาสตร์อย่าง เฉา ซวน เหา และ อองรี มาสเปโร พบว่า ภาษาเวียดนามไม่ได้มีแค่ 6 วรรณยุกต์ แต่มีมากถึง 8 วรรณยุกต์ เพื่อใช้ประโยชน์จากลักษณะเฉพาะนี้ v7 จึงใช้ระบบ 8 วรรณยุกต์แทนที่จะเป็น 6 วรรณยุกต์ตามปกติ (รวมถึงวรรณยุกต์ระดับ 1 วรรณยุกต์ และวรรณยุกต์ที่มีเครื่องหมายเน้นเสียง 5 วรรณยุกต์ ได้แก่ วรรณยุกต์เสียงสูง วรรณยุกต์เสียงต่ำ วรรณยุกต์คำถาม วรรณยุกต์ตัวหนอน และวรรณยุกต์จุด) ในแป้นพิมพ์นี้ เมื่อคุณป้อน "v7" ระบบจะแนะนำคำว่า "Viet" ซึ่งเป็นแนวคิดเบื้องหลังชื่อผลิตภัณฑ์ด้วย
หลังจากแชร์ v7 บนโซเชียลมีเดีย ดุ๊กกล่าวว่าเขารู้สึกดีใจและประหลาดใจมากที่โมเดลนี้ได้รับความสนใจ การสนับสนุน และความต้องการที่จะลองใช้มากมาย "นั่นทำให้ผมเห็นชัดเจนถึงความจำเป็นของวิธีการป้อนข้อมูลภาษาเวียดนามที่ฉลาดและรวดเร็วยิ่งขึ้น" เขากล่าว

|
ผู้เขียนบทความวิจัย ทางวิทยาศาสตร์ จากซ้ายไปขวา: นัท คัง, ฮิ้ว เหงีย และ ตรี ดึ๊ก ภาพ: ผู้เขียนเป็นผู้จัดหาให้ |
ปัจจุบัน วิธีการป้อนข้อมูลยังอยู่ในขั้นตอนการพัฒนาต้นแบบ โดยมีโค้ดโอเพนซอร์สอยู่บน GitHub เพื่อให้นักโปรแกรมเมอร์และผู้ใช้งานด้านเทคโนโลยีสามารถทดสอบและร่วมพัฒนาได้ นอกจากนี้ กำลังพัฒนาแอปพลิเคชันเวอร์ชันสมบูรณ์สำหรับ Windows และ macOS เพื่อให้ผู้ใช้งานทั่วไปสามารถติดตั้งและใช้งานได้ง่าย
ในอนาคต สิ่งสำคัญที่สุดสำหรับเวอร์ชัน 7 คือการพัฒนาแป้นพิมพ์สำหรับ iPhone โดยมีเป้าหมายเพื่อปรับปรุงวิธีการป้อนข้อความภาษาเวียดนามบนสมาร์ทโฟน นอกจากนี้ ความแม่นยำของโมเดลจะได้รับการปรับปรุงเพิ่มเติมโดยการฝึกฝนด้วยข้อมูลการสนทนาในชีวิตประจำวัน เพื่อช่วยให้ AI เข้าใจบริบททั่วไปได้ดียิ่งขึ้น
เส้นทางการทำงานของดึ๊กมีส่วนช่วยในการสร้างนวัตกรรมใหม่ๆ อย่างต่อเนื่อง โดยก้าวทันกระแสเทคโนโลยีในบริบทของการลงทุนอย่างแข็งแกร่งของเวียดนามในด้านโครงสร้างพื้นฐาน AI ช่วงเวลาหนึ่งที่ทำให้เขารู้สึกภาคภูมิใจคือตอนที่ v7 สร้างประโยคที่สมบูรณ์ได้เป็นครั้งแรก "นั่นคือตอนที่โมเดลขนาดเล็ก ซึ่งอาจมีขนาดเพียง 1/10,000 ของ ChatGPT ในปัจจุบัน ยังสามารถคิดได้เหมือนมนุษย์" ดึ๊กกล่าว
ที่มา: https://znews.vn/ky-su-tre-dung-ai-thay-doi-cach-go-tieng-viet-post1552246.html
การแสดงความคิดเห็น (0)