ผลิตภัณฑ์นี้สร้างกระแสฮือฮาในชุมชน วิทยาศาสตร์และ เทคโนโลยีของเวียดนามได้อย่างรวดเร็ว
เลือกเส้นทางที่ยากลำบากเพื่อแก้ไขปัญหาเวียดนาม
ในช่วงปลายปี 2022 ChatGPT ได้สร้าง "บิ๊กแบง" ขึ้น โดยเปิดฉากการแข่งขันเพื่อพิชิต AI เทียมระหว่างประเทศและบริษัทยักษ์ใหญ่ในด้านเทคโนโลยี ในเวลานั้น ชุมชนเทคโนโลยีของเวียดนามก็กระตือรือร้นที่จะพัฒนาผลิตภัณฑ์ของเวียดนามให้สามารถพึ่งพาตนเองในด้านเทคโนโลยีได้ ลดการพึ่งพาผลิตภัณฑ์จากต่างประเทศ อย่างไรก็ตาม ไม่ใช่ทุกหน่วยงานจะมีความสามารถและความมุ่งมั่นที่จะบรรลุความปรารถนานั้นได้ เช่นเดียวกับ VinBigdata
“Generative AI เป็นปัญหาที่ยาก บริษัทใหญ่ๆ เช่น OpenAI หรือ Google ยังต้องใช้ทรัพยากรและเวลาจำนวนมากในการวิจัยเพื่อจะสามารถสร้างผลิตภัณฑ์เช่นที่เราเห็นได้ ผลิตภัณฑ์เหล่านี้ดีมาก แต่ในความเป็นจริง นักวิทยาศาสตร์ยังไม่เข้าใจกลไกการทำงานของมันอย่างถ่องแท้ เมื่อมีข้อผิดพลาด และข้อผิดพลาดจะเป็นอย่างไร ก็แทบไม่มีใครคาดเดาได้ การพัฒนาผลิตภัณฑ์ที่คล้ายกับ ChatGPT สำหรับคนเวียดนาม ในช่วงเวลาสั้นๆ ไม่ถึงหนึ่งปี ต้องเผชิญกับความท้าทายมากมาย แต่เราเลือกที่จะ “เสี่ยง” เพราะถ้า ChatGPT เวอร์ชันภาษาเวียดนามไม่ได้ผลิตโดยคนเวียดนาม แล้วใครจะเป็นผู้ผลิต” ศาสตราจารย์ Vu Ha Van ผู้อำนวยการฝ่ายวิทยาศาสตร์ของ VinBigdata กล่าว
ในความเป็นจริง มีบริษัทเพียงไม่กี่แห่งเท่านั้นที่เลือกที่จะสร้าง Large Language Models ขึ้นมาเองตั้งแต่ต้น ตัวอย่างเช่น GPT 3 ของ OpenAI มีพารามิเตอร์ 175 พันล้านตัว และได้รับการฝึกบนชุดข้อมูลขนาด 45 เทราไบต์ และมีค่าใช้จ่าย 4.6 ล้านดอลลาร์ ตามการคำนวณ ค่าใช้จ่ายในการพัฒนา GPT 4 อาจสูงถึง 100 ล้านดอลลาร์เลยทีเดียว "ด้วยจำนวนมหาศาลเช่นนี้ จึงเป็นเรื่องยากมากที่จะหาบริษัทที่สามารถลงทุนในเทคโนโลยีนี้ได้" ดร. Nguyen Kim Anh ผู้อำนวยการฝ่ายผลิตภัณฑ์ของ VinBigdata กล่าว
เพื่อให้ธุรกิจในเวียดนามสามารถเข้าถึงเทคโนโลยี AI รุ่นใหม่ที่มีต้นทุนและโครงสร้างพื้นฐานที่เหมาะสม VinBigdata จึงเลือกแนวทางที่แตกต่างไปอย่างสิ้นเชิง นั่นคือการสร้างแบบจำลองภาษาที่มีพารามิเตอร์เพียง 1.6 พันล้านตัว แต่มีความสามารถเทียบเท่ากับแบบจำลองภาษาขนาดใหญ่ที่มีพารามิเตอร์นับพันล้านตัว "ผลลัพธ์แสดงให้เห็นว่าด้วยสถาปัตยกรรมที่พัฒนาโดย VinBigdata เองนั้น เป็นไปได้อย่างสมบูรณ์ที่จะเพิ่มประสิทธิภาพและเร่งกระบวนการฝึกอบรมแบบจำลองภาษา ลดต้นทุนโครงสร้างพื้นฐาน (รวมถึงต้นทุนการฝึกอบรมและต้นทุนการใช้งาน) แต่ยังคงรับประกันคุณภาพของแบบจำลองได้" ดร. Nguyen Kim Anh กล่าวเสริม
หลังจากแก้ปัญหาขนาดโมเดลภาษาขนาดใหญ่ได้ ในระหว่างกระบวนการ "คิด" ViGPT หลังจากศึกษาโมเดลต่างประเทศ ทีมงาน VinBigdata ยังได้ตระหนักถึงความท้าทายอีกประการหนึ่ง: "ภาพลวงตา" ที่มาจากธรรมชาติโดยธรรมชาติของโมเดลความน่าจะเป็นทางสถิติ
ด้วยเหตุนี้ โมเดลภาษาที่ใหญ่ที่สุดในโลก จึงมักได้รับการฝึกฝนจากแหล่งข้อมูลภาษาอังกฤษ ดังนั้น โมเดลนี้จึงไม่เข้าใจและตอบสนองต่อบริบทและวัฒนธรรมของชาวเวียดนามได้ถูกต้องจริงๆ ซึ่งนำไปสู่ภาพหลอนที่ทำให้โมเดลภาษาขนาดใหญ่ “สร้าง” คำตอบที่ไม่ถูกต้องขึ้นมา
เพื่อค้นหาโซลูชันที่ดีที่สุดในเวลาอันสั้นที่สุด ทีมประมวลผลภาษาธรรมชาติ (NLP) ของ VinBigdata ถูกแบ่งออกเป็นกลุ่มเล็กๆ เพื่อวิเคราะห์และหารือแนวคิดต่างๆ เพื่อค้นหาแนวทางสุดท้ายที่เหมาะสมที่สุด
“ในที่สุด เราตัดสินใจพัฒนาสถาปัตยกรรมที่แตกต่างจากโมเดลภาษาขนาดใหญ่ในปัจจุบัน และดำเนินการฝึกอบรมบนชุดข้อมูลภาษาเวียดนามที่ปรับแต่งอย่างละเอียดขนาด 600GB เพื่อสร้าง “ผู้ช่วยเสมือนอัจฉริยะ” ที่สามารถเข้าใจและให้คำตอบได้ตามบริบทของคนเวียดนาม” ดร. เหงียน คิม อันห์ กล่าวเสริม
ความปรารถนาสำหรับระบบนิเวศเทคโนโลยีของเวียดนาม
จากผลการประเมินตามมาตรฐานการประเมินความสามารถทางภาษาเวียดนาม (VMLU) ViGPT ได้คะแนนเฉลี่ย 42.24% เป็นรองเพียง ChatGPT (48.54%) เท่านั้น ผลลัพธ์นี้ทำให้ ViGPT สามารถค้นหาข้อมูลและตอบคำถามเกี่ยวกับหัวข้อเฉพาะของเวียดนามได้อย่างรวดเร็ว
นอกเหนือจากความสามารถของผู้ช่วยเสมือนแล้ว ทีมพัฒนายังต้องการผสาน ViGPT เข้ากับผลิตภัณฑ์ที่คุ้นเคยในชีวิตประจำวัน เพื่อสร้างการเปลี่ยนแปลงในชีวิตของชาวเวียดนาม ซึ่งเป็นแรงผลักดันที่กระตุ้นให้ทีม VinBigdata สร้างระบบนิเวศของผลิตภัณฑ์ภาษาและเสียงที่นำ ViGPT มาใช้ ซึ่งระบบนิเวศ "Vi" ประกอบด้วย ViChat, ViVoice, ViVi Virtual Assistant ผลิตภัณฑ์เหล่านี้สามารถใช้ได้ในหลายอุตสาหกรรม ตั้งแต่อุตสาหกรรมยานยนต์ ธนาคาร การเงิน ประกันภัย การขนส่ง และสาขาอื่นๆ อีกมากมาย
“เมื่อต้องทำงานกับเทคโนโลยี โดยเฉพาะ AI เราไม่เพียงแต่ต้องการพิชิตระบบที่น่าสนใจและซับซ้อนซึ่งยากจะมองเห็นเท่านั้น เราต้องการสร้างผลิตภัณฑ์ที่จับต้องได้และนำไปใช้ได้จริง โดยที่ AI เป็นตัวแทนโดยตรงที่สร้างการเปลี่ยนแปลงในชีวิต” ผู้อำนวยการฝ่ายผลิตภัณฑ์ VinBigdata ยืนยัน
ดังนั้น การพัฒนา ViGPT ที่ประสบความสำเร็จจึงเป็นเพียงก้าวแรกในการนำเทคโนโลยีและข้อมูล “ของเวียดนามล้วนๆ” มาให้บริการชีวิตของชาวเวียดนามหลายล้านคน ตัวแทนของ VinBigdata กล่าวว่าหน่วยงานนี้มีเป้าหมายที่จะบูรณาการ ViGPT เข้ากับแพลตฟอร์มปัญญาประดิษฐ์มัลติค็อกนิทีฟ VinBase 2.0 เพื่อมอบโซลูชันที่เหนือกว่าสำหรับองค์กรและธุรกิจที่มีขนาดและอุตสาหกรรมต่างๆ
ก่อนจะเปิดตัว ViGPT ทีมผู้เชี่ยวชาญและวิศวกรในด้านเทคโนโลยีการประมวลผลภาษาและเสียง VinBigdata ได้สร้างชื่อเสียงด้วยการเปิดตัว ViVi ซึ่งเป็นผู้ช่วยเสมือนภาษาเวียดนามครบวงจรตัวแรก (ประยุกต์ใช้งานบนรถยนต์ไฟฟ้า VinFast , แอปพลิเคชัน Vinhomes Resident และแพลตฟอร์มอีคอมเมิร์ซ Vinhomes Online) พร้อมกันนั้นยังเชี่ยวชาญเทคโนโลยีที่ก้าวหน้าที่สุดในโลกอย่าง Voice Biometrics หรือการโคลนเสียงอย่างครบวงจรอีกด้วย
เทคโนโลยีทั้งหมดนี้ได้รับการพัฒนาขึ้นจากฐานข้อมูลขนาด 3,500 เทราไบต์ โดยเน้นที่ข้อมูลเฉพาะของเวียดนามเป็นหลัก ซึ่งรวบรวม วิเคราะห์ และปรับแต่งโดย VinBigdata เป้าหมายสูงสุดคือการนำเทคโนโลยีระดับโลกมาสู่ชีวิตชาวเวียดนามโดยใช้ข้อมูลและระบบความรู้ของเวียดนาม
ViGPT คือ "ChatGPT เวอร์ชันภาษาเวียดนามเวอร์ชันแรก" สำหรับผู้ใช้ปลายทางที่สร้างขึ้นจากโมเดลภาษาเวียดนามขนาดใหญ่ (LLM) ที่พัฒนาโดย VinBigdata ViGPT มีคุณสมบัติที่โดดเด่นและได้รับการออกแบบมาให้เหมาะกับความต้องการของชาวเวียดนามมากที่สุด เช่น การสร้างเนื้อหา การค้นหาข้อมูล และการตอบคำถามทั่วไปที่เป็นเรื่องปกติของเวียดนาม ลงทะเบียนและสัมผัสกับ ViGPT ได้ที่: vigpt.vinbigdata.com |
ทานฮา
แหล่งที่มา
การแสดงความคิดเห็น (0)