В'єтнам розробляє набір даних для в'єтнамської мови для штучного інтелекту та віртуальних помічників

В'єтнамські дані для навчання моделей штучного інтелекту наразі становлять лише дуже незначну частку. Проект ViGen створює високоякісні набори даних для покращення зручності використання штучного інтелекту та віртуальних помічників в'єтнамською мовою.

VietNamNet•14/03/2025

Вранці 14 березня Національний інноваційний центр (NIC) запустив Програму інноваційних викликів 2025 року з метою сприяння розвитку галузі штучного інтелекту (ШІ) у В'єтнамі.

Інноваційний виклик 2025 року зосереджений на проекті ViGen з метою створення високоякісного набору даних з відкритим кодом для в'єтнамської мови для навчання, оцінки та, таким чином, підвищення ефективності моделей великих мов (LLM).

В'єтнамський набір даних призначений для того, щоб допомогти моделям штучного інтелекту краще зрозуміти в'єтнамську культуру, контекст та методи самовираження. Очікується, що проєкт збільшить присутність в'єтнамців у розробці штучного інтелекту та сприятиме розвитку цифрової економіки .

ВіГен 1.jpg — Запуск Програми інноваційних викликів 2025 року з метою сприяння розвитку штучного інтелекту (ШІ) у В'єтнамі. Фото: NIC

Проєкт ViGen виник у результаті тристоронньої співпраці між Meta Group, NIC та організацією «Штучний інтелект для В'єтнаму». У рамках цієї співпраці Національний інноваційний центр відіграє роль керівного, координуючого та забезпечувального підрозділу, що гарантує відповідність проєкту національним цілям В'єтнаму.

Місія проєкту ViGen полягає в тому, щоб моделі штучного інтелекту підтримували в'єтнамську мову природним чином та комплексно, починаючи з самого початку, щоб розкрити потенціал застосувань штучного інтелекту у В'єтнамі.

ViGen створюватиме масштабні, високоякісні в'єтнамські набори даних з відкритим кодом для навчання та оцінки можливостей моделей штучного інтелекту.

Проєкт ViGen також сприяє забезпеченню відповідності розвитку штучного інтелекту у В'єтнамі культурним цінностям та етичним стандартам, прагнучи побудувати місцеву та відповідальну екосистему штучного інтелекту з відкритим кодом.

Для підтримки проєкту Meta надасть свої набори даних з відкритим кодом, які включають аналітику мобільності та соціальної зв'язності, а також навчальні дані з карт населення на основі штучного інтелекту.

За словами пана Во Суан Хоая, заступника директора Національного інноваційного центру, штучний інтелект змінює світ . Тому розробка великомасштабних, високоякісних в'єтнамських наборів даних з відкритим вихідним кодом для навчання та оцінювання ШІ стала нагальним пріоритетом.

« Проект ViGen відповідає Резолюції 57 Політбюро щодо сприяння проривам у науці, технологіях, інноваціях та національній цифровій трансформації. Спільними зусиллями політиків, дослідників, розробників, експертів та користувачів ми перетворимо ШІ на потужний інструмент для всього в'єтнамського народу та зробимо В'єтнам світовим центром ШІ», – сказав заступник директора Національного інноваційного центру.

ВіГен 3.jpg — Пан Тран В'єт Хунг, засновник і генеральний директор організації AI for Vietnam. Фото: NIC

В'єтнамською мовою користуються понад 100 мільйонів людей, проте в'єтнамські дані, що використовуються для навчання моделей штучного інтелекту, наразі становлять лише дуже невелику частку, менше 1%. Саме тому результати моделей штучного інтелекту мають інформаційну цінність, але не є природними, не повністю відображають цінність в'єтнамської мови, що призводить до низької корисності та неефективності.

Пан Тран В'єт Хунг, засновник і генеральний директор AI for Vietnam, поділився: « Проект ViGen надасть спільноті великі та високоякісні набори даних в'єтнамською мовою, щоб покращити поточну ситуацію, коли в'єтнамська мова вважається мовою з дуже скромною присутністю у штучному інтелекті ».

За словами пана Тран В'єт Хунга, проєкт ViGen також демонструє силу та цінність моделей з відкритим кодом, таких як Llama, які дозволяють розробляти інноваційні рішення, що враховують контекст в'єтнамської мови.

Фактично, у В'єтнамі з'явилися в'єтнамські віртуальні помічники, розроблені на основі великої мовної моделі Llama, такі як віртуальний помічник Misa, який автоматизує пошук інформації, та юридичний віртуальний помічник Viettel. Це перші приклади застосування штучного інтелекту в житті в'єтнамців, особливо в державному секторі.

В'єтнам та історична можливість очолити революцію штучного інтелекту та напівпровідників . На Міжнародній конференції зі штучного інтелекту та напівпровідників багато експертів заявили, що В'єтнам стикається з історичною можливістю взяти участь у світових технологічних революціях.