'ChatGPT เวอร์ชันเวียดนาม' และเรื่องราวของผู้บุกเบิก

ผลิตภัณฑ์นี้สร้างกระแสในชุมชน วิทยาศาสตร์ และเทคโนโลยีของเวียดนามได้อย่างรวดเร็ว

เลือกเส้นทางที่ยากลำบากเพื่อแก้ไขปัญหาเวียดนาม

ในช่วงปลายปี 2565 ChatGPT ได้สร้าง "บิ๊กแบง" ขึ้น ทำให้เกิดการแข่งขันเพื่อพิชิต AI ระหว่างประเทศและบริษัทยักษ์ใหญ่ในวงการเทคโนโลยี ในขณะนั้น ชุมชนเทคโนโลยีของเวียดนามก็กระตือรือร้นที่จะพัฒนาผลิตภัณฑ์ของเวียดนามให้สามารถพึ่งพาตนเองทางเทคโนโลยีได้ ลดการพึ่งพาผลิตภัณฑ์จากต่างประเทศ อย่างไรก็ตาม ไม่ใช่ทุกหน่วยงานที่มีความสามารถและความมุ่งมั่นที่จะทำให้ความปรารถนานั้นเป็นจริงได้ เช่นเดียวกับ VinBigdata

“Generative AI เป็นปัญหาที่ยาก บริษัทใหญ่ๆ อย่าง OpenAI หรือ Google ก็ต้องลงทุนทรัพยากรและเวลาจำนวนมากในการวิจัยเพื่อที่จะสร้างผลิตภัณฑ์อย่างที่เราเห็น ผลิตภัณฑ์เหล่านี้ดีมาก แต่ในความเป็นจริง นักวิทยาศาสตร์ยังไม่เข้าใจกลไกการทำงานของมันอย่างถ่องแท้ เมื่อมีข้อผิดพลาดและข้อผิดพลาดจะเป็นอย่างไร น้อยคนนักที่จะคาดการณ์ได้ การพัฒนาผลิตภัณฑ์ที่คล้ายกับ ChatGPT สำหรับคนเวียดนาม ภายในเวลาอันสั้นไม่ถึงหนึ่งปีนั้น มีความท้าทายมากมาย แต่เราเลือกที่จะ “เสี่ยง” เพราะหาก ChatGPT เวอร์ชันภาษาเวียดนามไม่ได้ผลิตโดยคนเวียดนาม แล้วใครจะเป็นผู้ผลิต” - ศาสตราจารย์ Vu Ha Van ผู้อำนวยการฝ่ายวิทยาศาสตร์ของ VinBigdata กล่าว

อันที่จริง มีบริษัทเพียงไม่กี่แห่งเท่านั้นที่เลือกสร้าง Large Language Models ขึ้นมาเองตั้งแต่ต้น ยกตัวอย่างเช่น GPT 3 ของ OpenAI มีพารามิเตอร์ถึง 175 พันล้านตัว และถูกฝึกบนชุดข้อมูลขนาด 45 เทราไบต์ และมีต้นทุน 4.6 ล้านดอลลาร์สหรัฐ จากการคำนวณพบว่า งบประมาณในการพัฒนา GPT 4 อาจสูงถึง 100 ล้านดอลลาร์สหรัฐเลยทีเดียว “ด้วยจำนวนมหาศาลเช่นนี้ การหาบริษัทที่สามารถลงทุนในเทคโนโลยีนี้ได้จึงเป็นเรื่องยากมาก” ดร.เหงียน คิม อันห์ ผู้อำนวยการฝ่ายผลิตภัณฑ์ของ VinBigdata กล่าว

เพื่อให้ธุรกิจในเวียดนามสามารถเข้าถึงเทคโนโลยี AI รุ่นใหม่ที่มีต้นทุนและโครงสร้างพื้นฐานที่เหมาะสมที่สุด VinBigdata จึงเลือกแนวทางที่แตกต่างออกไปโดยสิ้นเชิง นั่นคือการสร้างแบบจำลองภาษาที่มีพารามิเตอร์เพียง 1.6 พันล้านตัว แต่มีความสามารถเทียบเท่าแบบจำลองภาษาขนาดใหญ่ที่มีพารามิเตอร์หลายพันล้านตัว “ผลลัพธ์แสดงให้เห็นว่าด้วยสถาปัตยกรรมที่ VinBigdata พัฒนาขึ้นเอง ทำให้สามารถเพิ่มประสิทธิภาพและเร่งกระบวนการฝึกอบรมแบบจำลองภาษา ลดต้นทุนโครงสร้างพื้นฐาน (รวมถึงต้นทุนการฝึกอบรมและต้นทุนการใช้งาน) ได้อย่างมีประสิทธิภาพ แต่ยังคงรักษาคุณภาพของแบบจำลองไว้ได้” ดร.เหงียน คิม อันห์ กล่าวเสริม

หลังจากแก้ไขปัญหาขนาดโมเดลภาษาขนาดใหญ่ ในระหว่างกระบวนการ "คิดค้น" ViGPT หลังจากค้นคว้าโมเดลต่างประเทศ ทีมงาน VinBigdata ยังได้ตระหนักถึงความท้าทายอีกประการหนึ่งซึ่งก็คือ "ภาพลวงตา" ซึ่งมาจากธรรมชาติโดยธรรมชาติของโมเดลความน่าจะเป็นทางสถิติ

ด้วยเหตุนี้ โมเดลภาษาที่ใหญ่ที่สุด ในโลก จึงมักถูกฝึกฝนด้วยแหล่งข้อมูลภาษาอังกฤษ ดังนั้น โมเดลนี้จึงไม่เข้าใจและตอบสนองต่อบริบทและวัฒนธรรมของชาวเวียดนามได้อย่างถูกต้อง ส่งผลให้เกิดภาพหลอนที่ทำให้โมเดลภาษาขนาดใหญ่ “สร้าง” คำตอบที่ไม่ถูกต้องขึ้นมา

เพื่อค้นหาวิธีแก้ปัญหาที่เหมาะสมที่สุดในเวลาอันสั้นที่สุด ทีมประมวลผลภาษาธรรมชาติ (NLP) ของ VinBigdata จะถูกแบ่งออกเป็นกลุ่มเล็กๆ เพื่อวิเคราะห์และหารือแนวคิดต่างๆ เพื่อค้นหาแนวทางสุดท้ายที่เหมาะสมที่สุด

“ในที่สุด เราจึงตัดสินใจพัฒนาสถาปัตยกรรมที่แตกต่างจากโมเดลภาษาขนาดใหญ่ส่วนใหญ่ในปัจจุบัน และดำเนินการฝึกอบรมบนชุดข้อมูลภาษาเวียดนามที่ปรับแต่งอย่างละเอียดขนาด 600GB เพื่อสร้าง “ผู้ช่วยเสมือนอัจฉริยะ” ที่สามารถเข้าใจและให้คำตอบได้ตามบริบทของชาวเวียดนาม” ดร.เหงียน กิม อันห์ กล่าวเสริม

ความปรารถนาสำหรับระบบนิเวศเทคโนโลยีของเวียดนาม

จากผลการประเมินตามมาตรฐานการประเมินความสามารถทางภาษาเวียดนาม (VMLU) พบว่า ViGPT ได้คะแนนเฉลี่ย 42.24% รองจาก ChatGPT (48.54%) ผลลัพธ์นี้ช่วยให้ ViGPT สามารถค้นหาข้อมูลและตอบคำถามเกี่ยวกับหัวข้อเฉพาะของเวียดนามได้อย่างรวดเร็ว

นอกเหนือจากความสามารถของผู้ช่วยเสมือนแล้ว ทีมพัฒนายังมุ่งมั่นที่จะผสานรวม ViGPT เข้ากับผลิตภัณฑ์ที่คุ้นเคยและใช้งานในชีวิตประจำวัน เพื่อสร้างการเปลี่ยนแปลงให้กับชีวิตของชาวเวียดนาม นี่คือแรงผลักดันที่ผลักดันให้ทีม VinBigdata สร้างระบบนิเวศของผลิตภัณฑ์ภาษาและเสียงที่ประยุกต์ใช้ ViGPT ซึ่งระบบนิเวศ "Vi" ประกอบด้วย ViChat, ViVoice และ ViVi Virtual Assistant ผลิตภัณฑ์เหล่านี้สามารถใช้งานได้ในหลายอุตสาหกรรม ตั้งแต่อุตสาหกรรมยานยนต์ ธนาคาร การเงิน ประกันภัย ไปจนถึงการขนส่ง และสาขาอื่นๆ อีกมากมาย

“เมื่อทำงานกับเทคโนโลยี โดยเฉพาะอย่างยิ่ง AI เราไม่เพียงแต่ต้องการเอาชนะระบบที่น่าสนใจ ซับซ้อน และเข้าใจยากเท่านั้น แต่เราต้องการสร้างผลิตภัณฑ์ที่เป็นรูปธรรมและนำไปประยุกต์ใช้งานได้จริง โดยที่ AI เป็นตัวการสำคัญที่ก่อให้เกิดการเปลี่ยนแปลงในชีวิต” ผู้อำนวยการฝ่ายผลิตภัณฑ์ของ VinBigdata กล่าวยืนยัน

ดังนั้น ความสำเร็จในการพัฒนา ViGPT จึงเป็นเพียงก้าวแรกในการนำเทคโนโลยีและข้อมูล "เวียดนามแท้" มาให้บริการประชาชนชาวเวียดนามหลายล้านคน ตัวแทนจาก VinBigdata กล่าวว่า หน่วยงานนี้มีเป้าหมายที่จะบูรณาการ ViGPT เข้ากับแพลตฟอร์มปัญญาประดิษฐ์แบบมัลติค็อกนิทีฟ VinBase 2.0 เพื่อนำเสนอโซลูชันที่โดดเด่นสำหรับองค์กรและธุรกิจหลากหลายขนาดและหลากหลายอุตสาหกรรม

ก่อนจะมี ViGPT ทีมผู้เชี่ยวชาญและวิศวกรในสาขาเทคโนโลยีการประมวลผลภาษาและการพูด VinBigdata ได้สร้างชื่อเสียงด้วยการเปิดตัว ViVi ซึ่งเป็นผู้ช่วยเสมือนภาษาเวียดนามที่ครอบคลุมตัวแรก (ประยุกต์ใช้งานบนรถยนต์ไฟฟ้า VinFast แอปพลิเคชัน Vinhomes Resident และแพลตฟอร์มอีคอมเมิร์ซ Vinhomes Online) ในเวลาเดียวกัน โดยเชี่ยวชาญเทคโนโลยีที่ก้าวหน้าที่สุดในโลก เช่น Voice Biometrics หรือการโคลนเสียงอย่างครบวงจร

เทคโนโลยีทั้งหมดนี้ได้รับการพัฒนาจากฐานข้อมูลขนาด 3,500 เทราไบต์ โดยเน้นข้อมูลเฉพาะของเวียดนามเป็นหลัก ซึ่งรวบรวม วิเคราะห์ และปรับปรุงโดย VinBigdata เป้าหมายสูงสุดคือการนำเทคโนโลยีระดับโลกมาสู่ชีวิตชาวเวียดนาม โดยใช้ข้อมูลและระบบความรู้ของเวียดนาม

ViGPT คือ "ChatGPT เวอร์ชันภาษาเวียดนาม" รุ่นแรกสำหรับผู้ใช้ปลายทาง สร้างขึ้นบนแบบจำลองภาษาเวียดนามขนาดใหญ่ (LLM) ที่พัฒนาโดย VinBigdata ViGPT มีคุณสมบัติที่โดดเด่นและออกแบบมาเพื่อตอบสนองความต้องการของชาวเวียดนามอย่างดีที่สุด เช่น การสร้างเนื้อหา การค้นหาข้อมูล และการตอบคำถามทั่วไปเกี่ยวกับลักษณะเฉพาะของชาวเวียดนาม ลงทะเบียนและสัมผัสประสบการณ์ ViGPT ได้ที่: vigpt.vinbigdata.com

การแสดงความคิดเห็น (0)