ผลิตภัณฑ์นี้สร้างกระแสในชุมชน วิทยาศาสตร์และ เทคโนโลยีของเวียดนามได้อย่างรวดเร็ว
เลือกเส้นทางที่ยากลำบากเพื่อแก้ไขปัญหาเวียดนาม
ในช่วงปลายปี 2565 ChatGPT ได้สร้าง “บิ๊กแบง” ขึ้น เปิดโอกาสให้ประเทศและบริษัทยักษ์ใหญ่ในวงการเทคโนโลยีได้แข่งขันกันเพื่อพิชิต AI ในขณะนั้น ชุมชนเทคโนโลยีของเวียดนามก็กระตือรือร้นที่จะพัฒนาผลิตภัณฑ์ของเวียดนามให้สามารถพึ่งพาตนเองทางเทคโนโลยีได้ ลดการพึ่งพาผลิตภัณฑ์จากต่างประเทศ อย่างไรก็ตาม ไม่ใช่ทุกหน่วยงานที่จะมีความสามารถและความมุ่งมั่นที่จะทำให้ความปรารถนานั้นเป็นจริงได้ เช่นเดียวกับ VinBigdata
“Generative AI เป็นปัญหาที่ยาก บริษัทใหญ่ๆ อย่าง OpenAI หรือ Google ต้องใช้ทรัพยากรและเวลาจำนวนมากในการวิจัยเพื่อสร้างผลิตภัณฑ์อย่างที่เราเห็น ผลิตภัณฑ์เหล่านี้ดีมาก แต่ในความเป็นจริง นักวิทยาศาสตร์ยังไม่เข้าใจกลไกการทำงานของมันอย่างถ่องแท้ เมื่อมีข้อผิดพลาดและข้อผิดพลาดจะเป็นอย่างไร น้อยคนนักที่จะคาดการณ์ได้ การพัฒนาผลิตภัณฑ์ที่คล้ายกับ ChatGPT สำหรับคนเวียดนาม ภายในเวลาอันสั้นไม่ถึงปีนั้น ต้องเผชิญกับความท้าทายมากมาย แต่เราเลือกที่จะ “เสี่ยง” เพราะหาก ChatGPT เวอร์ชันภาษาเวียดนามไม่ได้ผลิตโดยคนเวียดนาม แล้วใครจะเป็นผู้ผลิต” - ศาสตราจารย์ Vu Ha Van ผู้อำนวยการฝ่ายวิทยาศาสตร์ของ VinBigdata กล่าว
อันที่จริง มีบริษัทเพียงไม่กี่แห่งเท่านั้นที่เลือกสร้าง Large Language Models ขึ้นมาเองตั้งแต่ต้น ยกตัวอย่างเช่น GPT 3 ของ OpenAI มีพารามิเตอร์ถึง 175 พันล้านตัว และถูกฝึกบนชุดข้อมูลขนาด 45 เทราไบต์ และมีต้นทุน 4.6 ล้านดอลลาร์สหรัฐ จากการคำนวณพบว่า ต้นทุนในการพัฒนา GPT 4 อาจสูงถึง 100 ล้านดอลลาร์สหรัฐ “ด้วยตัวเลขมหาศาลเช่นนี้ การหาบริษัทที่สามารถลงทุนในเทคโนโลยีนี้ได้จึงเป็นเรื่องยากมาก” ดร.เหงียน คิม อันห์ ผู้อำนวยการฝ่ายผลิตภัณฑ์ของ VinBigdata กล่าว
เพื่อให้ธุรกิจในเวียดนามสามารถเข้าถึงเทคโนโลยี AI รุ่นใหม่ที่มีต้นทุนและโครงสร้างพื้นฐานที่เหมาะสมที่สุด VinBigdata จึงเลือกแนวทางที่แตกต่างออกไปโดยสิ้นเชิง นั่นคือการสร้างแบบจำลองภาษาที่มีพารามิเตอร์เพียง 1.6 พันล้านตัว แต่มีความสามารถเทียบเท่าแบบจำลองภาษาขนาดใหญ่ที่มีพารามิเตอร์หลายพันล้านตัว “ผลลัพธ์แสดงให้เห็นว่าด้วยสถาปัตยกรรมที่ VinBigdata พัฒนาขึ้นเอง ทำให้สามารถเพิ่มประสิทธิภาพและเร่งกระบวนการฝึกอบรมแบบจำลองภาษา ลดต้นทุนโครงสร้างพื้นฐาน (รวมถึงต้นทุนการฝึกอบรมและต้นทุนการใช้งาน) ได้อย่างมีประสิทธิภาพ แต่ยังคงรักษาคุณภาพของแบบจำลองไว้ได้” ดร.เหงียน คิม อันห์ กล่าวเสริม
หลังจากแก้ปัญหาขนาดโมเดลภาษาขนาดใหญ่ ในระหว่างกระบวนการ "คิด" ViGPT หลังจากศึกษาโมเดลต่างประเทศ ทีมงาน VinBigdata ยังได้ตระหนักถึงความท้าทายอีกประการหนึ่ง นั่นก็คือ "ภาพลวงตา" ซึ่งมาจากธรรมชาติโดยธรรมชาติของโมเดลความน่าจะเป็นทางสถิติ
ด้วยเหตุนี้ โมเดลภาษาที่ใหญ่ที่สุดใน โลก จึงมักถูกฝึกฝนด้วยแหล่งข้อมูลภาษาอังกฤษ ดังนั้น โมเดลนี้จึงไม่เข้าใจและตอบสนองต่อบริบทและวัฒนธรรมของชาวเวียดนามได้อย่างถูกต้อง ส่งผลให้เกิดภาพหลอนที่ทำให้โมเดลภาษาขนาดใหญ่ “สร้าง” คำตอบที่ไม่ถูกต้องขึ้นมา
เพื่อค้นหาวิธีแก้ปัญหาที่ดีที่สุดในเวลาอันสั้นที่สุด ทีมประมวลผลภาษาธรรมชาติ (NLP) ของ VinBigdata ถูกแบ่งออกเป็นกลุ่มเล็กๆ เพื่อวิเคราะห์และหารือแนวคิดต่างๆ เพื่อค้นหาแนวทางสุดท้ายที่เหมาะสมที่สุด
“ในที่สุด เราจึงตัดสินใจพัฒนาสถาปัตยกรรมที่แตกต่างจากโมเดลภาษาขนาดใหญ่ส่วนใหญ่ในปัจจุบัน และดำเนินการฝึกอบรมบนชุดข้อมูลภาษาเวียดนามที่ปรับแต่งอย่างละเอียดขนาด 600GB เพื่อสร้าง “ผู้ช่วยเสมือนอัจฉริยะ” ที่สามารถเข้าใจและให้คำตอบได้ตามบริบทของชาวเวียดนาม” ดร.เหงียน กิม อันห์ กล่าวเสริม
ความปรารถนาสำหรับระบบนิเวศเทคโนโลยีของเวียดนาม
จากผลการประเมินตามมาตรฐานการประเมินความสามารถทางภาษาเวียดนาม (VMLU) พบว่า ViGPT ได้คะแนนเฉลี่ย 42.24% เป็นรองเพียง ChatGPT (48.54%) ผลลัพธ์นี้ช่วยให้ ViGPT สามารถค้นหาข้อมูลและตอบคำถามเกี่ยวกับหัวข้อเฉพาะเจาะจงของเวียดนามได้อย่างรวดเร็ว
นอกเหนือจากความสามารถของผู้ช่วยเสมือนแล้ว ทีมพัฒนาต้องการผสานรวม ViGPT เข้ากับผลิตภัณฑ์ที่คุ้นเคยในชีวิตประจำวัน เพื่อสร้างการเปลี่ยนแปลงให้กับชีวิตความเป็นอยู่ของชาวเวียดนาม นี่คือแรงผลักดันที่ผลักดันให้ทีม VinBigdata สร้างระบบนิเวศของผลิตภัณฑ์ภาษาและเสียงที่ประยุกต์ใช้ ViGPT ซึ่งระบบนิเวศ "Vi" ประกอบด้วย ViChat, ViVoice และ ViVi Virtual Assistant ผลิตภัณฑ์เหล่านี้สามารถใช้งานได้ในหลายอุตสาหกรรม ตั้งแต่อุตสาหกรรมยานยนต์ ธนาคาร การเงิน ประกันภัย ไปจนถึงการขนส่ง และสาขาอื่นๆ อีกมากมาย
“เมื่อทำงานกับเทคโนโลยี โดยเฉพาะอย่างยิ่ง AI เราไม่เพียงแต่ต้องการเอาชนะระบบที่น่าสนใจและซับซ้อนซึ่งยากจะเข้าใจเท่านั้น เราต้องการสร้างผลิตภัณฑ์ที่เป็นรูปธรรมและนำไปประยุกต์ใช้งานได้จริง โดยที่ AI เป็นตัวการสำคัญที่ก่อให้เกิดการเปลี่ยนแปลงในชีวิต” ผู้อำนวยการฝ่ายผลิตภัณฑ์ VinBigdata กล่าวยืนยัน
ดังนั้น ความสำเร็จในการพัฒนา ViGPT จึงเป็นเพียงก้าวแรกในการนำเทคโนโลยีและข้อมูล “เวียดนามแท้” มาให้บริการประชาชนชาวเวียดนามหลายล้านคน ตัวแทนจาก VinBigdata กล่าวว่า หน่วยงานนี้มีเป้าหมายที่จะบูรณาการ ViGPT เข้ากับแพลตฟอร์มปัญญาประดิษฐ์แบบมัลติค็อกนิทีฟ VinBase 2.0 เพื่อมอบโซลูชันที่เหนือกว่าสำหรับองค์กรและธุรกิจหลากหลายขนาดและหลากหลายอุตสาหกรรม
ก่อนจะมี ViGPT ทีมผู้เชี่ยวชาญและวิศวกรในสาขาเทคโนโลยีการประมวลผลภาษาและการพูด VinBigdata ได้สร้างชื่อเสียงด้วยการเปิดตัว ViVi ซึ่งเป็นผู้ช่วยเสมือนภาษาเวียดนามที่ครอบคลุมตัวแรก (ประยุกต์ใช้งานบนรถยนต์ไฟฟ้า VinFast แอปพลิเคชัน Vinhomes Resident และแพลตฟอร์มอีคอมเมิร์ซ Vinhomes Online) ในเวลาเดียวกัน โดยเชี่ยวชาญเทคโนโลยีที่ก้าวหน้าที่สุดในโลก เช่น Voice Biometrics หรือการโคลนเสียงอย่างครบวงจร
เทคโนโลยีทั้งหมดนี้ได้รับการพัฒนาจากฐานข้อมูลขนาด 3,500 เทราไบต์ โดยเน้นข้อมูลเฉพาะของเวียดนามเป็นหลัก ซึ่งรวบรวม วิเคราะห์ และปรับปรุงโดย VinBigdata เป้าหมายสูงสุดคือการนำเทคโนโลยีระดับโลกมาสู่ชีวิตชาวเวียดนาม โดยใช้ข้อมูลและระบบความรู้ของเวียดนาม
ViGPT คือ "ChatGPT เวอร์ชันภาษาเวียดนาม" รุ่นแรกสำหรับผู้ใช้ปลายทาง สร้างขึ้นบนแบบจำลองภาษาเวียดนามขนาดใหญ่ (LLM) ที่พัฒนาโดย VinBigdata ViGPT มีคุณสมบัติที่โดดเด่นและออกแบบมาเพื่อตอบสนองความต้องการของชาวเวียดนามอย่างดีที่สุด เช่น การสร้างเนื้อหา การค้นหาข้อมูล และการตอบคำถามทั่วไปที่พบเห็นได้ทั่วไปในเวียดนาม ลงทะเบียนและสัมผัสประสบการณ์ ViGPT ได้ที่: vigpt.vinbigdata.com |
ทันห์ ฮา
แหล่งที่มา
การแสดงความคิดเห็น (0)