Продукт быстро произвел фурор во вьетнамском научно- техническом сообществе.

Выберите трудный путь решения вьетнамских проблем

В конце 2022 года ChatGPT произвел «большой взрыв», положив начало гонке за завоевание искусственного интеллекта среди стран и технологических гигантов. В то время вьетнамское технологическое сообщество также стремилось разрабатывать вьетнамские продукты, чтобы стать самодостаточными в технологическом плане и снизить зависимость от международных продуктов. Однако не каждое подразделение обладает возможностями и решимостью реализовать это стремление, как VinBigdata.

«Генеративный ИИ — сложная задача. Крупным компаниям, таким как OpenAI или Google, также приходится тратить много ресурсов и времени на исследования, чтобы создавать продукты, подобные тем, что мы видим. Эти продукты очень хороши, но учёные до сих пор не до конца понимают механизм их работы. Мало кто может предсказать, когда в них возникнут ошибки и какими именно. Разработать продукт, аналогичный ChatGPT для вьетнамцев, менее чем за год — задача не из лёгких. Но мы решили рискнуть, ведь если вьетнамская версия ChatGPT не будет создана вьетнамцами, то кто её создаст?» — поделился профессор Ву Ха Ван, директор по науке VinBigdata.

Фактически, очень немногие компании решают создавать собственные большие языковые модели с нуля. Например, GPT 3 от OpenAI содержит 175 миллиардов параметров, обучалась на 45-терабайтном наборе данных и стоила 4,6 миллиона долларов. Согласно расчётам, стоимость разработки GPT 4 может составить до 100 миллионов долларов. «С такими огромными объёмами очень сложно найти компанию, которая может позволить себе инвестировать в эту технологию», — сказал д-р Нгуен Ким Ань, директор по продукту VinBigdata.

картинка 1.jpg

Чтобы предоставить вьетнамским компаниям доступ к технологиям искусственного интеллекта нового поколения с оптимальными затратами и инфраструктурой, VinBigdata выбрала совершенно иное направление: создать языковую модель, содержащую всего 1,6 миллиарда параметров, но обладающую возможностями, эквивалентными крупным языковым моделям с миллиардами параметров. «Результаты показывают, что архитектура, разработанная самой VinBigdata, позволяет полностью оптимизировать и ускорить процесс обучения языковой модели, снизить затраты на инфраструктуру (включая затраты на обучение и использование), при этом обеспечивая качество модели», — добавил доктор Нгуен Ким Ань.

Решив проблему большого размера языковой модели, в процессе «замысла» ViGPT и после изучения зарубежных моделей команда VinBigdata также столкнулась с еще одной проблемой: «иллюзией», вытекающей из внутренней природы статистических вероятностных моделей.

Соответственно, крупнейшие в мире языковые модели часто обучаются на англоязычных источниках данных. Следовательно, эта модель не может по-настоящему понять контекст и культуру вьетнамцев и правильно на них реагировать. Это приводит к галлюцинации, из-за которой крупная языковая модель «выдаёт» неверные ответы.

картинка 3.jpg

Чтобы найти оптимальное решение в кратчайшие сроки, команда по обработке естественного языка (NLP) компании VinBigdata разделилась на небольшие группы, которые анализировали и обсуждали различные идеи, чтобы найти наиболее подходящее окончательное направление.

«В конце концов, мы решили разработать архитектуру, отличную от большинства современных крупных языковых моделей, и провести обучение на точно настроенном наборе вьетнамских данных объемом 600 ГБ, чтобы создать «интеллектуального виртуального помощника», способного понимать и давать ответы в соответствии с контекстом вьетнамцев», — добавил доктор Нгуен Ким Ань.

Стремление к вьетнамской технологической экосистеме

Согласно результатам оценки по Стандартам оценки уровня владения вьетнамским языком (VMLU), ViGPT набрал средний балл 42,24%, уступая только ChatGPT (48,54%). Этот результат позволяет ViGPT быстро находить информацию и отвечать на вопросы по специфическим темам, связанным с Вьетнамом.

Помимо возможностей виртуального помощника, команда разработчиков стремится интегрировать ViGPT в привычные, повседневные продукты, чтобы изменить жизнь вьетнамцев. Именно эта движущая сила побуждает команду VinBigdata создавать экосистему языковых и голосовых продуктов, использующих ViGPT. Экосистема Vi включает в себя: ViChat, ViVoice и виртуального помощника ViVi. Эти продукты могут использоваться во многих отраслях: от автомобильной промышленности, банковского дела и финансов до страхования, транспорта и многих других.

«Работая с технологиями, особенно с искусственным интеллектом, мы не просто хотим покорить интересные, сложные системы, которые трудно увидеть. Мы хотим создавать осязаемые, широко применяемые продукты, где искусственный интеллект станет непосредственным агентом, меняющим жизнь», — подтвердил директор по продуктам VinBigdata.

изображение 4.jpg

Таким образом, успешная разработка ViGPT — это лишь первый шаг на пути к внедрению «исключительно вьетнамских» технологий и данных на благо миллионов вьетнамцев. Представитель VinBigdata заявил, что цель этого подразделения — интегрировать ViGPT в мультикогнитивную платформу искусственного интеллекта VinBase 2.0, чтобы предоставлять превосходные решения организациям и предприятиям различных размеров и отраслей.

До ViGPT команда экспертов и инженеров в области технологий обработки языка и речи VinBigdata отличилась запуском ViVi — первого всеобъемлющего вьетнамского виртуального помощника (применяется и развертывается на электромобилях VinFast , в приложениях Vinhomes Resident и на платформе электронной коммерции Vinhomes Online), при этом в совершенстве освоив самые передовые технологии в мире, такие как голосовая биометрия или клонирование голоса.

Все эти технологии разработаны на основе базы данных объёмом 3500 терабайт, в которой основное внимание уделяется данным, касающимся Вьетнама, собранным, проанализированным и обработанным VinBigdata. Конечная цель — привнести мировые технологии в жизнь вьетнамцев, используя вьетнамские системы данных и знаний.

ViGPT — это первая «вьетнамская версия ChatGPT» для конечных пользователей, основанная на вьетнамской модели языка (LLM), разработанной VinBigdata. ViGPT обладает выдающимися функциями и разработан для максимального удовлетворения потребностей вьетнамцев, таких как создание контента, поиск информации и ответы на распространённые вопросы, характерные для Вьетнама. Зарегистрируйтесь и попробуйте ViGPT на сайте: vigpt.vinbigdata.com

Тхань Ха