21 августа компания VinBigdata объявила об успешном создании крупной модели вьетнамского языка, что заложило основу для освоения технологии генеративного ИИ.
Большие языковые модели (LLM) — это модели, обученные с использованием методов глубокого обучения на огромных наборах текстовых или графических данных. Эти модели способны понимать знания, генерировать текст и выполнять различные задачи обработки естественного языка. Они считаются ключом к разработке технологии генеративного ИИ — способной генерировать новый контент и идеи во многих различных формах (текст, изображения, аудио и т. д.).
Благодаря успешному созданию крупной модели вьетнамского языка VinBigdata интегрирует технологию, которая сделает VinBase (комплексную платформу мультикогнитивного искусственного интеллекта) платформой генеративного ИИ во Вьетнаме, одновременно предоставляя решения для разработки на основе этой технологии, такие как чат-бот генеративного ИИ, бот-звонок или виртуальный помощник нового поколения ViVi... Эта технология помогает повысить естественность машинного общения, одновременно помогая пользователям быстрее и проще искать и синтезировать информацию, чем раньше.
Профессор Ву Ха Ван - научный директор компании VinBigdata. Фото: VinBigdata
Профессор Ву Ха Ван - директор по науке компании VinBigdata сказал, что в мире есть ряд крупных корпораций, которые успешно исследовали и выпустили продукты на основе больших языковых моделей, таких как OpenAI с ChatGPT или Google с Bard. Во Вьетнаме VinBigdata инвестируется Vingroup для создания большой вьетнамской языковой модели. По словам г-на Вана, эта модель фокусируется на решении трех основных проблем, включая повышение точности, снижение затрат на инфраструктуру и обеспечение безопасности.
«Вместо того, чтобы использовать около 175 миллиардов параметров, как ChatGPT, VinBigdata может создать большую языковую модель с несколькими миллиардами параметров, но при этом иметь возможность генерировать высокоаутентичные документы, ориентируясь на вьетнамские данные и знания о вьетнамском языке», — сказал руководитель подразделения.
Освоение технологий, саморазвитие с первых шагов, построение большой вьетнамской языковой модели считается шагом вперед, чтобы помочь VinBigdata внедрить генеративную технологию ИИ в экосистему продуктов и услуг на рынке. В настоящее время предприятие изначально применило новую технологию в линейке продуктов VinBase KB (портал базы знаний VinBase). Продукт обладает способностью извлекать информацию и автоматически генерировать ответы на основе информации, собранной из чрезвычайно больших наборов данных в системе знаний.
Представитель VinBigdata выступил на мероприятии, анонсируя Generative AI. Фото: VinBigdata
Ожидается, что в декабре этого года участники Vingroup запустят две основные линейки продуктов: VinBase2.0 и приложение ViGPT. VinBase 2.0 — это платформа искусственного интеллекта, которая создает множественные восприятия с помощью решений, обслуживающих предприятия и государственные учреждения. Между тем, приложение ViGPT представлено предприятием как «вьетнамская версия ChatGPT», открытая для доступа и тестирования сообществом. С помощью ViGPT пользователи могут задавать вопросы и отвечать на них, касающиеся конкретной информации о Вьетнаме (нормативные акты, юридические документы) или местной информации (история, литература, живописные места, местные деликатесы).
VinBigdata Joint Stock Company имеет систему базы данных объемом до 3500 терабайт. Система содержит сотни тысяч часов голосовых данных, изображений и информации, которые очищаются, обрабатываются, классифицируются и используются для обучения ИИ вместе с инфраструктурой НИОКР. Эта инфраструктура включает десятки кластеров серверов NvidiaDGX A100. Компания также владеет командой вьетнамских профессоров, ученых и технических экспертов со всего мира.
Хоай Фыонг
Ссылка на источник
Комментарий (0)