21 августа компания VinBigdata объявила об успешном создании крупной модели вьетнамского языка, что заложило основу для освоения технологии генеративного ИИ.
Большие языковые модели (LLM) — это модели, обученные с помощью методов глубокого обучения на больших наборах текста или изображений. Эти модели способны понимать информацию, генерировать текст и выполнять различные задачи обработки естественного языка. Они считаются ключом к развитию технологий генеративного ИИ, способных генерировать новый контент и идеи в самых разных формах (текст, изображения, звуки и т. д.).
Благодаря успешному созданию крупной модели вьетнамского языка VinBigdata интегрирует технологию, которая сделает VinBase (комплексную платформу мультикогнитивного искусственного интеллекта) платформой генеративного ИИ во Вьетнаме, а также предоставит решения для разработки на основе этой технологии, такие как чат-бот генеративного ИИ, бот для звонков или виртуальный помощник нового поколения ViVi... Эта технология помогает повысить естественность машинного общения, одновременно помогая пользователям быстрее и проще искать и синтезировать информацию, чем раньше.
Профессор Ву Ха Ван — научный директор компании VinBigdata. Фото: VinBigdata
Профессор Ву Ха Ван, директор по науке компании VinBigdata, отметил, что в мире существует ряд крупных корпораций, успешно исследовавших и выпустивших продукты на основе крупных языковых моделей, таких как OpenAI с ChatGPT или Google с Bard. Во Вьетнаме VinBigdata инвестирует в разработку крупной языковой модели вьетнамского языка при участии Vingroup . По словам г-на Вана, эта модель ориентирована на решение трёх основных задач: повышение точности, снижение затрат на инфраструктуру и обеспечение безопасности.
«Вместо того, чтобы использовать около 175 миллиардов параметров, как в ChatGPT, VinBigdata может создать большую языковую модель с несколькими миллиардами параметров, но при этом сохраняет возможность генерировать высокоаутентичные документы, ориентируясь на вьетнамские данные и знания о вьетнамском языке», — сказал руководитель подразделения.
Освоение технологий, саморазвитие с первых шагов и создание обширной модели вьетнамского языка – это шаг вперёд, который поможет VinBigdata внедрить технологию генеративного искусственного интеллекта в экосистему продуктов и услуг на рынке. В настоящее время компания впервые применила новую технологию в линейке продуктов VinBase KB (портал базы знаний VinBase). Продукт способен извлекать информацию и автоматически генерировать ответы на основе информации, собранной из чрезвычайно больших наборов данных в системе знаний.
Представитель VinBigdata выступил на мероприятии с анонсом генеративного искусственного интеллекта. Фото: VinBigdata
Ожидается, что в декабре этого года участники Vingroup запустят две основные линейки продуктов: VinBase2.0 и приложение ViGPT. VinBase 2.0 — это платформа искусственного интеллекта, создающая множественные образы с помощью решений, предназначенных для предприятий и государственных учреждений. Компания также представила приложение ViGPT как «вьетнамскую версию ChatGPT», доступную для доступа и тестирования сообществом. С помощью ViGPT пользователи могут задавать вопросы и отвечать на них, касающиеся конкретной информации о Вьетнаме (нормативные акты, юридические документы) или местной информации (история, литература, достопримечательности, местные деликатесы).
Акционерное общество VinBigdata располагает базой данных объёмом до 3500 терабайт. В системе хранятся сотни тысяч часов голосовых данных, изображений и информации, которые очищаются, обрабатываются, классифицируются и используются для обучения искусственного интеллекта и инфраструктуры исследований и разработок. Эта инфраструктура включает десятки серверных кластеров NvidiaDGX A100. Компания также располагает командой вьетнамских профессоров, учёных и технических экспертов со всего мира.
Хоай Фыонг
Ссылка на источник
Комментарий (0)