Продукт швидко викликав ажіотаж у в'єтнамській науково- технічній спільноті.

Оберіть складний шлях вирішення в'єтнамської проблеми

Наприкінці 2022 року ChatGPT створив «великий вибух», розпочавши гонку за підкорення штучного ШІ серед країн та гігантів у сфері технологій. У той час в'єтнамська технологічна спільнота також прагнула розробляти в'єтнамські продукти, щоб бути технологічно самодостатніми, зменшуючи залежність від міжнародних продуктів. Однак не кожен підрозділ має можливості та рішучість реалізувати це бажання, як VinBigdata.

«Генеративний штучний інтелект – це складна проблема. Великі компанії, такі як OpenAI чи Google, також повинні інвестувати багато ресурсів і часу в дослідження, щоб мати змогу створювати продукти, подібні до тих, що ми бачимо. Ці продукти дуже хороші, але насправді вчені досі не до кінця розуміють механізм їхньої роботи. Коли в них виникнуть помилки і якими вони будуть, мало хто може передбачити. Розробка продукту, подібного до ChatGPT, для в'єтнамців за короткий час, менше року, пов'язана з багатьма труднощами. Але ми вирішили «ризикувати», тому що якщо в'єтнамську версію ChatGPT не створять в'єтнамці, то хто її зробить?» – поділився професор Ву Ха Ван, директор з науки VinBigdata.

Насправді, дуже мало компаній вирішують створювати власні великі мовні моделі з нуля. Наприклад, GPT 3 від OpenAI має 175 мільярдів параметрів, був навчений на наборі даних розміром 45 терабайт і коштував 4,6 мільйона доларів. Згідно з розрахунками, сума коштів на розробку GPT 4 може сягати навіть 100 мільйонів доларів. «З такою величезною кількістю дуже важко знайти компанію, яка може дозволити собі інвестувати в цю технологію», — сказав доктор Нгуєн Кім Ань, директор з продуктів VinBigdata.

фото 1.jpg

Щоб в'єтнамський бізнес отримав доступ до технологій штучного інтелекту нового покоління з оптимальними витратами та інфраструктурою, VinBigdata обрала зовсім інший напрямок, а саме створити мовну модель лише з 1,6 мільярдами параметрів, але з можливостями, еквівалентними великим мовним моделям з мільярдами параметрів. «Результати показують, що з архітектурою, розробленою самою VinBigdata, цілком можливо оптимізувати та прискорити процес навчання мовної моделі, зменшити витрати на інфраструктуру (включаючи витрати на навчання та витрати на використання), але при цьому забезпечити якість моделі», – додав доктор Нгуєн Кім Ань.

Після вирішення проблеми великого розміру мовної моделі, під час процесу «задуму» ViGPT, після дослідження іноземних моделей, команда VinBigdata також усвідомила ще одну проблему – «ілюзію», що випливає з невід'ємної природи статистичних ймовірнісних моделей.

Відповідно, найбільші мовні моделі світу часто навчаються на англійських джерелах даних. Тому ця модель насправді не розуміє та не відповідає контексту та культурі в'єтнамського народу. Це призводить до галюцинацій, через які великі мовні моделі «виготовляють» неправильні відповіді.

фото 3.jpg

Щоб знайти оптимальне рішення за найкоротший час, команда VinBigdata з обробки природної мови (NLP) поділена на невеликі групи, які аналізують та обговорюють різні ідеї, щоб знайти найбільш підходящий остаточний напрямок.

«Зрештою, ми вирішили розробити архітектуру, що відрізняється від більшості сучасних моделей великих мов, і провести навчання на 600 ГБ точно налаштованого в’єтнамського набору даних, щоб створити «інтелектуального віртуального помічника», який може розуміти та давати відповіді відповідно до контексту в’єтнамського народу», – додав доктор Нгуєн Кім Ань.

Прагнення до створення в'єтнамської технологічної екосистеми

Згідно з результатами оцінювання за Стандартами оцінювання володіння в'єтнамською мовою (VMLU), ViGPT досяг середнього балу 42,24%, поступаючись лише ChatGPT (48,54%). Цей результат дозволяє ViGPT швидко шукати інформацію та відповідати на запитання щодо певних тем, пов'язаних з В'єтнамом.

Окрім можливостей віртуального помічника, команда розробників прагне інтегрувати ViGPT у звичні продукти щоденного використання, щоб змінити життя в'єтнамців. Це рушійна сила, яка мотивує команду VinBigdata створювати екосистему мовних та голосових продуктів, що застосовують ViGPT – екосистема «Vi» включає: ViChat, ViVoice, віртуального помічника ViVi. Ці продукти можна використовувати в багатьох галузях, від автомобільної промисловості, банківської справи та фінансів, страхування до транспорту та багатьох інших.

«Працюючи з технологіями, особливо зі штучним інтелектом, ми прагнемо не просто опанувати цікаві, складні та важкодоступні системи. Ми хочемо створювати відчутні, високо застосовні продукти, де штучний інтелект є прямим агентом, який змінює життя», – підтвердив директор з продуктів VinBigdata.

фото 4.jpg

Таким чином, успішний розвиток ViGPT – це лише перший крок на шляху до впровадження «чисто в’єтнамських» технологій та даних для обслуговування життя мільйонів в’єтнамців. Представник VinBigdata заявив, що цей підрозділ має на меті інтегрувати ViGPT у мультикогнітивну платформу штучного інтелекту VinBase 2.0, щоб забезпечити видатні рішення для організацій та підприємств різного розміру та галузей.

До появи ViGPT команда експертів та інженерів у галузі технологій мови та обробки мовлення VinBigdata залишила свій слід, запустивши ViVi – першого комплексного віртуального помічника для В'єтнаму (застосованого та розгорнутого на електромобілях VinFast , додатках Vinhomes Resident та платформі електронної комерції Vinhomes Online), водночас повністю опанувавши найпередовіші технології у світі, такі як голосова біометрія або клонування голосу.

Усі ці технології розроблені на основі бази даних обсягом 3500 терабайт, що зосереджена переважно на даних, специфічних для В'єтнаму, які збирає, аналізує та уточнює VinBigdata. Кінцева мета — привнести світові технології у життя в'єтнамців, використовуючи в'єтнамські системи даних та знань.

ViGPT — це перша «в'єтнамська версія ChatGPT» для кінцевих користувачів, побудована на основі в'єтнамської великої мовної моделі (LLM), розробленої VinBigdata. ViGPT має видатні функції та розроблений для найкращого задоволення потреб в'єтнамців, таких як створення контенту, пошук інформації та відповіді на поширені запитання з в'єтнамськими особливостями. Зареєструйтесь та випробуйте ViGPT за адресою: vigpt.vinbigdata.com

Тхань Ха