ผลิตภัณฑ์นี้สร้างกระแสฮือฮาในชุมชนวิทยาศาสตร์และเทคโนโลยีของเวียดนามได้อย่างรวดเร็ว

เลือกเส้นทางที่ยากลำบากเพื่อแก้ไขปัญหาเวียดนาม

ในช่วงปลายปี 2022 ChatGPT จะสร้าง "บิ๊กแบง" ขึ้น โดยเปิดฉากการแข่งขันพิชิต AI ระหว่างประเทศและยักษ์ใหญ่ในด้านเทคโนโลยี ในเวลานั้น ชุมชนเทคโนโลยีของเวียดนามก็กระตือรือร้นที่จะพัฒนาผลิตภัณฑ์ของเวียดนามให้เป็นอิสระทางเทคโนโลยีและลดการพึ่งพาผลิตภัณฑ์ระดับนานาชาติ อย่างไรก็ตาม ไม่ใช่ทุกหน่วยจะมีความสามารถและความมุ่งมั่นที่จะบรรลุความปรารถนานั้นได้ เช่นเดียวกับ VinBigdata

“Generative AI เป็นปัญหาที่ยาก บริษัทใหญ่ๆ เช่น OpenAI หรือ Google ยังต้องใช้ทรัพยากรและเวลาจำนวนมากในการวิจัยเพื่อจะสร้างผลิตภัณฑ์เช่นที่เราเห็นได้ ผลิตภัณฑ์เหล่านี้ดีมาก แต่ในความเป็นจริง นักวิทยาศาสตร์ยังไม่เข้าใจกลไกการทำงานของมันอย่างถ่องแท้ เมื่อมีข้อผิดพลาดและข้อผิดพลาดจะเป็นอย่างไร แทบไม่มีใครคาดเดาได้ การพัฒนาผลิตภัณฑ์ที่คล้ายกับ ChatGPT สำหรับคนเวียดนาม ในช่วงเวลาสั้นๆ ไม่ถึงหนึ่งปี ต้องเผชิญกับความท้าทายมากมาย แต่เราเลือกที่จะ “เสี่ยง” เพราะถ้า ChatGPT เวอร์ชันภาษาเวียดนามไม่ได้ผลิตโดยคนเวียดนาม แล้วใครจะเป็นผู้ผลิต” - ศาสตราจารย์ Vu Ha Van ผู้อำนวยการฝ่ายวิทยาศาสตร์ของ VinBigdata กล่าว

ในความเป็นจริง มีบริษัทเพียงไม่กี่แห่งเท่านั้นที่เลือกที่จะสร้าง Large Language Model ของตนเองตั้งแต่ต้น เช่นเดียวกับ GPT 3 ของ OpenAI ที่มีพารามิเตอร์ 175 พันล้านรายการและได้รับการฝึกบนชุดข้อมูลขนาด 45 เทราไบต์และมีค่าใช้จ่าย 4.6 ล้านดอลลาร์ ตามการคำนวณจำนวนเงินในการพัฒนา GPT 4 อาจสูงถึง 100 ล้านเหรียญสหรัฐ “ด้วยจำนวนที่มากมายมหาศาลเช่นนี้ จึงเป็นเรื่องยากที่จะหาบริษัทที่สามารถลงทุนในเทคโนโลยีนี้ได้” ดร. Nguyen Kim Anh ผู้อำนวยการฝ่ายผลิตภัณฑ์ของ VinBigdata กล่าว

ภาพที่ 1.jpg

เพื่อให้ธุรกิจในเวียดนามสามารถเข้าถึงเทคโนโลยี AI รุ่นใหม่ด้วยต้นทุนและโครงสร้างพื้นฐานที่เหมาะสม VinBigdata จึงเลือกแนวทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิง ซึ่งก็คือการสร้างแบบจำลองภาษาที่มีพารามิเตอร์เพียง 1.6 พันล้านตัว แต่มีศักยภาพเทียบเท่ากับแบบจำลองภาษาขนาดใหญ่ที่มีพารามิเตอร์นับพันล้านตัว “ผลลัพธ์แสดงให้เห็นว่าด้วยสถาปัตยกรรมที่พัฒนาโดย VinBigdata เองนั้น เป็นไปได้อย่างสมบูรณ์ที่จะเพิ่มประสิทธิภาพและเร่งความเร็วกระบวนการฝึกอบรมโมเดลภาษา ลดต้นทุนโครงสร้างพื้นฐาน (รวมถึงต้นทุนการฝึกอบรมและต้นทุนการใช้งาน) แต่ยังคงรับประกันคุณภาพของโมเดล” ดร. Nguyen Kim Anh กล่าวเสริม

หลังจากแก้ปัญหาขนาดโมเดลภาษาขนาดใหญ่ได้ ในระหว่างกระบวนการ "คิด" ViGPT หลังจากศึกษาโมเดลต่างประเทศ ทีมงาน VinBigdata ยังได้ตระหนักถึงความท้าทายอีกประการหนึ่ง: "ภาพลวงตา" ที่มาจากธรรมชาติโดยธรรมชาติของโมเดลความน่าจะเป็นทางสถิติ

ด้วยเหตุนี้ โมเดลภาษาที่ใหญ่ที่สุดในโลกจึงมักได้รับการฝึกฝนโดยใช้แหล่งข้อมูลภาษาอังกฤษ ดังนั้นโมเดลนี้จึงไม่เข้าใจและตอบสนองต่อบริบทและวัฒนธรรมของชาวเวียดนามได้อย่างแท้จริง สิ่งนี้ทำให้เกิดภาพหลอนซึ่งทำให้โมเดลภาษาขนาดใหญ่ "สร้าง" คำตอบที่ไม่ถูกต้องขึ้นมา

ภาพที่ 3.jpg

เพื่อค้นหาโซลูชันที่ดีที่สุดในเวลาอันสั้นที่สุด ทีมประมวลผลภาษาธรรมชาติ (NLP) ของ VinBigdata ถูกแบ่งออกเป็นกลุ่มเล็กๆ เพื่อวิเคราะห์และหารือแนวคิดต่างๆ เพื่อค้นหาแนวทางสุดท้ายที่เหมาะสมที่สุด

“ท้ายที่สุด เราตัดสินใจพัฒนาสถาปัตยกรรมที่แตกต่างจากโมเดลภาษาขนาดใหญ่ในปัจจุบัน และดำเนินการฝึกอบรมบนชุดข้อมูลภาษาเวียดนามที่ปรับแต่งอย่างละเอียดขนาด 600GB เพื่อสร้าง “ผู้ช่วยเสมือนอัจฉริยะ” ที่สามารถเข้าใจและให้คำตอบได้ตามบริบทของชาวเวียดนาม” ดร. Nguyen Kim Anh กล่าวเสริม

ความปรารถนาสำหรับระบบนิเวศเทคโนโลยีของเวียดนาม

ตามผลการประเมินจากมาตรฐานการประเมินความสามารถทางภาษาเวียดนาม (VMLU) ViGPT ได้คะแนนเฉลี่ย 42.24% เป็นรองเพียง ChatGPT (48.54%) ผลลัพธ์นี้ช่วยให้ ViGPT ค้นหาข้อมูลและตอบคำถามเกี่ยวกับหัวข้อเฉพาะที่เกี่ยวข้องกับเวียดนามได้อย่างรวดเร็ว

นอกเหนือจากความสามารถของผู้ช่วยเสมือนแล้ว สิ่งที่ทีมพัฒนาต้องการคือการผสานรวม ViGPT เข้ากับผลิตภัณฑ์ที่คุ้นเคยและใช้ในชีวิตประจำวัน เพื่อสร้างการเปลี่ยนแปลงในชีวิตของชาวเวียดนาม นั่นคือแรงบันดาลใจที่ผลักดันให้ทีมงาน VinBigdata สร้างระบบนิเวศของผลิตภัณฑ์ภาษาและเสียงโดยการใช้ ViGPT - ระบบนิเวศ "Vi" ซึ่งประกอบด้วย: ViChat, ViVoice, ViVi Virtual Assistant ผลิตภัณฑ์เหล่านี้สามารถใช้ได้ในหลายอุตสาหกรรม ตั้งแต่อุตสาหกรรมยานยนต์ ธนาคาร การเงิน ประกันภัย การขนส่ง และอื่นๆ อีกมากมาย

“เมื่อต้องทำงานกับเทคโนโลยี โดยเฉพาะ AI เราไม่เพียงแต่ต้องการพิชิตระบบที่น่าสนใจและซับซ้อนซึ่งยากจะมองเห็นเท่านั้น เราต้องการสร้างผลิตภัณฑ์ที่จับต้องได้และนำไปใช้ได้จริง โดยที่ AI เป็นตัวแทนโดยตรงที่สร้างการเปลี่ยนแปลงในชีวิต” ผู้อำนวยการฝ่ายผลิตภัณฑ์ VinBigdata ยืนยัน

ภาพที่ 4.jpg

ดังนั้น การพัฒนา ViGPT ที่ประสบความสำเร็จจึงเป็นเพียงก้าวแรกในการเดินทางสู่การนำเทคโนโลยีและข้อมูล "ของเวียดนามแท้ๆ" มาให้บริการชีวิตความเป็นอยู่ของชาวเวียดนามหลายล้านคน ตัวแทน VinBigdata กล่าวว่าหน่วยงานนี้มีเป้าหมายที่จะบูรณาการ ViGPT เข้ากับแพลตฟอร์มปัญญาประดิษฐ์แบบมัลติค็อกนิทีฟ VinBase 2.0 เพื่อมอบโซลูชันที่โดดเด่นให้กับระบบองค์กรและธุรกิจในหลากหลายขนาดและหลายอุตสาหกรรม

ก่อนจะเปิดตัว ViGPT ทีมผู้เชี่ยวชาญและวิศวกรในด้านเทคโนโลยีการประมวลผลภาษาและเสียง VinBigdata ได้สร้างชื่อเสียงด้วยการเปิดตัว ViVi ซึ่งเป็นผู้ช่วยเสมือนภาษาเวียดนามครบวงจรตัวแรก (ประยุกต์ใช้งานบนรถยนต์ไฟฟ้า VinFast, แอปพลิเคชัน Vinhomes Resident และแพลตฟอร์มอีคอมเมิร์ซ Vinhomes Online) พร้อมกันนั้นยังเชี่ยวชาญเทคโนโลยีที่ก้าวหน้าที่สุดในโลกอย่าง Voice Biometrics หรือการโคลนเสียงอย่างครบวงจรอีกด้วย

เทคโนโลยีทั้งหมดนี้ได้รับการพัฒนาขึ้นบนฐานข้อมูลขนาด 3,500 เทราไบต์ โดยมุ่งเน้นไปที่ข้อมูลเฉพาะของเวียดนามเป็นหลัก ซึ่งรวบรวม วิเคราะห์ และปรับปรุงโดย VinBigdata เป้าหมายสูงสุดคือการนำเทคโนโลยีโลกมาสู่ชีวิตชาวเวียดนามโดยใช้ข้อมูลและระบบความรู้ของเวียดนาม

ViGPT เป็น "ChatGPT เวอร์ชันเวียดนามแรก" สำหรับผู้ใช้ปลายทางที่สร้างขึ้นบนโมเดลภาษาเวียดนามขนาดใหญ่ (LLM) ที่พัฒนาโดย VinBigdata ViGPT มีคุณสมบัติที่โดดเด่นและได้รับการออกแบบมาให้เหมาะสมที่สุดกับความต้องการของผู้ใช้ชาวเวียดนาม เช่น การสร้างเนื้อหา การค้นหาข้อมูล และการตอบคำถามทั่วไปที่เป็นเรื่องปกติของเวียดนาม ลงทะเบียนและสัมผัสประสบการณ์ ViGPT ได้ที่: vigpt.vinbigdata.com

ทานฮา