Поработав в крупной организации по искусственному интеллекту в США, почему вы решили вернуться домой и присоединиться к VinBigdata?
Работая в США, хотя я и участвовал во многих крупных государственных проектах, результаты, которые я производил, часто были всего лишь несколькими шагами в большом процессе. Много раз, из-за строгой конфиденциальности проектов, я даже не знал, как используются разработанные мной решения.
В 2017 году я вернулся во Вьетнам, когда Вьетнам находился на этапе развития и было много проблем, связанных с большими данными и искусственным интеллектом, которые нужно было решить. Я принял приглашение профессора Ву Ха Вана, чтобы совместно реализовать цель разработки вьетнамских технологических решений для служения жизни вьетнамцев. Я нашел свое возвращение во Вьетнам гораздо более значимым, потому что я смог бы работать над проблемами с большим влиянием.
Доктор Дао Дук Минь в мастерской
Какую роль и влияние играют большие данные в стратегии развития искусственного интеллекта, сэр?
Данные играют огромную и ценную роль в обучении искусственного интеллекта. Обучение высококачественной модели искусственного интеллекта часто начинается с обучения большой базы данных. Поэтому для получения качественного искусственного интеллекта нам сначала нужны хорошие данные.
Хорошие данные требуют количества и масштаба, качества, разнообразия и универсальности. Процесс сбора и обработки тысяч часов данных с этапа очистки необработанных данных для создания данных высочайшего качества для подачи в модели искусственного интеллекта очень дорог и сложен. Напротив, для анализа больших данных нам необходимо использовать искусственный интеллект, чтобы обеспечить возможность точной обработки данных в больших масштабах, тем самым создавая более решающие или предсказательные результаты.
Например, в процессе разработки продукта виртуального помощника для вьетнамцев (ViVi) нам пришлось собрать и обработать десятки тысяч часов высококачественных аудиоданных от сотен тысяч голосов из разных регионов, разного возраста и пола, с контентом, охватывающим сотни областей...
Или совсем недавно запуск ViGPT - "первой вьетнамской версии ChatGPT для конечных пользователей", разработанной на основе Large Language Model, полностью принадлежащей VinBigdata. Эта модель обучается на основе 600 ГБ уточненных вьетнамских данных из многих различных областей. Благодаря нашему пониманию вьетнамских данных и языка мы нашли новый подход к сокращению времени запуска ViGPT всего за 9 месяцев после рождения ChatGPT.
Это резонанс между большими данными и искусственным интеллектом.
Каково ваше мнение о связи исследований с практической ценностью на благо общества?
- Я считаю, что технологические исследования по-настоящему успешны только тогда, когда они действительно воплощаются в жизнь, решают социальные проблемы и улучшают жизнь людей.
Чтобы создавать практические коммерческие продукты, решающие деловые и социальные проблемы, мы всегда должны обращать внимание и задавать себе вопрос: какую ценность данные принесут в жизнь?
На сегодняшний день мы исследовали и разработали множество продуктов и решений для различных отраслей и областей, среди которых ViGPT, VinDr — решения на основе искусственного интеллекта для медицинской визуализации, VinBase — платформа биологического искусственного интеллекта, а Vizone — набор решений для интеллектуального анализа изображений.
С ключевыми сотрудниками VinBigdata на мероприятии корпорации Vingroup
Четвертая промышленная революция активно происходит в мировом масштабе. Какие преимущества, по вашему мнению, есть у Вьетнама?
По сравнению с предыдущими революциями, я считаю, что у Вьетнама сейчас есть много преимуществ для прорыва в этой промышленной революции 4.0, помогающей улучшить положение страны на карте мира. Два ключа к достижению этой цели — данные и люди.
В настоящее время во Вьетнаме проживает около 100 миллионов человек, из которых большая часть молодежи пользуется телефонами и персональными компьютерами. Кроме того, у нас есть авторитетные специалисты в области искусственного интеллекта и качественные молодые кадры в области информационных технологий, а также очень хорошая база в области математики.
Так в чем же заключаются ограничения?
Первым очевидным ограничением является то, что, несмотря на большую численность населения, мы по-прежнему испытываем трудности с управлением данными, в частности со стандартизацией и синхронизацией данных на объектах, в бизнес-подразделениях и администрациях.
Кроме того, мы сталкиваемся и с другими ограничениями, такими как ограниченность инвестиционных ресурсов, особенно инвестиций в высокопроизводительную вычислительную инфраструктуру.
По вашему мнению, насколько важна роль вьетнамского владения данными в процессе создания и освоения технологий, которые будут служить жизни вьетнамского народа?
В настоящее время существует множество ведущих продуктов искусственного интеллекта в мире, как правило, это продукты генеративного ИИ-приложения, основанные на больших языковых моделях, таких как ChatGPT от OpenAI или Bard от Google. Однако вьетнамский язык не является основной языковой группой для разработки этих продуктов.
Таким образом, качество возвращаемого пользователям контента на вьетнамском языке в той или иной степени страдает и имеет высокую вероятность ошибок, а что еще опаснее, ошибок в базовых знаниях.
Как вьетнамцы, мы имеем преимущество доступа к собственным источникам данных. Только мы способны понимать характеристики вьетнамских данных, потребности и характеристики вьетнамцев. Поэтому овладение вьетнамскими данными на самом деле является ключом к овладению основными технологиями, которые будут служить вьетнамцам.
Внутреннее обучение для членов VinBigdata
Как получить доступ к определенным источникам данных, особенно если учесть, что большинство вьетнамцев сегодня пользуются сайтами социальных сетей из-за рубежа?
Реальность такова, что сегодня крупнейшим источником человеческих данных (не только вьетнамских) является интернет и социальные сети. Однако мы все еще можем получать доступ и собирать данные из разных источников, основываясь на понимании характеристик вьетнамских данных, в зависимости от характеристик, установленных каждым проектом.
Например, модели GPT OpenAI имеют сотни, даже триллионы параметров, обучаются на огромных объемах данных и стоят миллиарды долларов. По сравнению с ними мы выбрали совершенно другой путь, основанный на наших исследованиях, возможностях и ресурсах: создание модели вьетнамского языка с архитектурой всего из нескольких миллиардов параметров, обученной на наборе вьетнамских данных объемом 600 ГБ, который мы собрали и усовершенствовали сами, но с эквивалентными возможностями в плане обработки вьетнамского языка. Результаты показывают, что наша самостоятельная архитектура может самооптимизироваться, сокращать время обучения языковой модели, снижать затраты и при этом обеспечивать качество модели.
С какими трудностями вы и ваша команда столкнулись в процессе исследования и разработки продуктов искусственного интеллекта?
Первая проблема — это, конечно, время. Волна технологий искусственного интеллекта надвигается очень быстро и переживает период взрыва. В мире ведущие технологические компании быстро выпустили высокополные продукты, постоянно обновляемые и совершенствуемые. Если мы будем медлить и не выпустим продукты вовремя, мы обязательно отстанем.
С другой стороны, если мы хотим создавать продукты, которые можно применять и решать практические социальные проблемы, мы должны также рассмотреть возможность поиска и разработки выдающихся, особых и уникальных характеристик продукта.
Презентация на Дне искусственного интеллекта во Вьетнаме (AI4VN 2023)
На самом деле, многие люди и организации во Вьетнаме и по всему миру понесли большие потери из-за утечек данных. Как вы оцениваете проблему безопасности данных?
Можно сказать, что любое приложение сегодня исходит из данных. Работая с данными, с одной стороны, мы должны обеспечить цель применения данных для создания лучшей технологии для жизни, а с другой стороны, мы должны обеспечить безопасность данных для отдельных лиц и организаций.
Человеческий фактор является очень важным звеном в процессе обеспечения безопасности данных. К ним относятся разработчики, пользователи продукта и пользователи. Для разработчиков осведомленность о безопасности данных должна присутствовать с самого начала сбора и обработки данных.
Часто, когда нет проблем, мы не осознаем важность безопасности данных. Но если происходит утечка данных, ущерб может быть огромным. Утечки данных могут происходить из-за технических проблем или преднамеренных атак с целью кражи данных. При утечке данных информация отдельных лиц или организаций может быть использована злоумышленниками в незаконных целях, а предприятия могут понести финансовые потери из-за устранения связанных с этим проблем, даже нанести ущерб своему бренду.
Доктор Дао Дук Минь и команда VinBigdata на мероприятии
После стремления освоить технологии для служения вьетнамскому народу будут ли предприняты шаги для продвижения в мир?
Любая организация или бизнес, желающие вывести свою продукцию на международный рынок, должны соответствовать международным стандартам. VinBigdata имеет сильные стороны в решениях и технологиях, поэтому постановка цели покорить мир естественна.
Конечно, для развертывания множества различных продуктов и приложений необходима поддержка международных подразделений с многолетним опытом и пониманием пользователей по всему миру.
Спасибо!
Источник: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
Комментарий (0)