Vietnam.vn - Nền tảng quảng bá Việt Nam

«Опанування в'єтнамських даних – це перший крок у розробці та опануванні в'єтнамських технологій»

Báo Thanh niênBáo Thanh niên27/05/2024


TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 1.

Працюючи у великій організації зі штучного інтелекту в США, чому ви вирішили повернутися до В'єтнаму та приєднатися до VinBigdata?

Працюючи в США, хоча я й брав участь у багатьох великих урядових проектах, результати, яких я досягав, часто були лише кількома кроками у великому процесі. Часто, через сувору конфіденційність проектів, я навіть не знав, як використовуються розроблені мною рішення.

У 2017 році, коли я повернувся до В'єтнаму, він перебував на стадії розробки, і було багато проблем, пов'язаних з великими даними та штучним інтелектом, які потребували вирішення. Я прийняв запрошення професора Ву Ха Вана, щоб спільно реалізувати мету розробки в'єтнамських технологічних рішень для обслуговування життя в'єтнамського народу. Я вважаю своє повернення до В'єтнаму набагато більш змістовним, оскільки зможу працювати над проблемами з більшим впливом.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 2.

Доктор Дао Дик Мінь на семінарі

У стратегії розвитку штучного інтелекту, яку роль та вплив відіграють великі дані, сер?

Дані відіграють величезну та цінну роль у навчанні штучного інтелекту. Навчання високоякісної моделі штучного інтелекту часто починається з навчання великої бази даних. Тому, щоб мати якісний штучний інтелект, нам спочатку потрібні якісні дані.

Якісні дані повинні відповідати стандартам щодо кількості та масштабу, якості, різноманітності та універсальності. Процес збору та обробки тисяч годин даних, починаючи з етапу очищення необроблених даних для створення даних найвищої якості для використання в моделях штучного інтелекту, є дуже дорогим та складним. Натомість, для аналізу великих даних нам потрібно використовувати штучний інтелект, щоб забезпечити можливість точної обробки даних у великих масштабах, тим самим створюючи кращі вирішальні або прогнозні результати.

Наприклад, у процесі розробки віртуального помічника для в'єтнамців (ViVi) нам довелося зібрати та обробити десятки тисяч годин високоякісних аудіоданих від сотень тисяч голосів з різних регіонів, різного віку та статі, з контентом, що охоплює сотні галузей...

Або ж нещодавно запуск ViGPT – «першої в’єтнамської версії ChatGPT для кінцевих користувачів», розробленої на основі великої мовної моделі, що повністю належить VinBigdata. Ця модель навчена на основі 600 ГБ уточнених в’єтнамських даних з багатьох різних галузей. Завдяки нашому розумінню в’єтнамських даних та мови ми знайшли новий підхід до скорочення часу запуску ViGPT лише за 9 місяців після народження ChatGPT.

Це синергія між великими даними та штучним інтелектом.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 3.
TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 4.

Яка ваша думка щодо поєднання досліджень з практичною цінністю для служіння громаді?

– Я вважаю, що технологічні дослідження справді успішні лише тоді, коли вони реально входять у життя, вирішують соціальні проблеми та покращують життя людей.

Щоб створювати практичні комерційні продукти, що вирішують бізнес- та соціальні проблеми, ми повинні завжди звертати увагу та ставити питання: яку цінність дані принесуть у життя?

На сьогоднішній день ми досліджували та розробляли різноманітні продукти та рішення для різних галузей та сфер, як правило, ViGPT, VinDr – надання рішень на основі штучного інтелекту в медичній візуалізації, VinBase – платформу біоштучного інтелекту, або Vizone – набір інтелектуальних рішень для аналізу зображень.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 5.

З ключовими співробітниками VinBigdata на заході корпорації Vingroup

4-та промислова революція активно відбувається у світовому масштабі. Які переваги, на вашу думку, має В'єтнам?

Порівняно з попередніми революціями, я вважаю, що В'єтнам зараз має багато переваг, які можна реалізувати в рамках цієї промислової революції 4.0, допомагаючи покращити позиції країни на карті світу. Два ключі до досягнення цієї мети – це дані та люди.

У В'єтнамі зараз проживає майже 100 мільйонів людей, з яких значна частка молоді користується телефонами та персональними комп'ютерами. Крім того, у нас є авторитетні експерти зі штучного інтелекту та якісні молоді кадри в галузі інформаційних технологій, а також дуже добру основу з математики.

Отже, які ж обмеження?

Перше очевидне обмеження полягає в тому, що, незважаючи на велику чисельність населення, ми все ще маємо труднощі з освоєнням даних, зокрема зі стандартизацією та синхронізацією даних на об'єктах, у бізнес-підрозділах та адміністративних одиницях.

Крім того, ми також стикаємося з іншими обмеженнями, такими як обмежені інвестиційні ресурси, особливо інвестиції у високопродуктивну обчислювальну інфраструктуру.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 6.

На вашу думку, наскільки важливою є роль опанування в'єтнамських даних у процесі створення та опанування технологій для обслуговування життя в'єтнамського народу?

Наразі у світі існує багато провідних продуктів штучного інтелекту, зазвичай це програми штучного інтелекту, засновані на великих мовних моделях, таких як ChatGPT від OpenAI або Bard від Google. Однак в'єтнамська мова не є основною мовною групою для розробки цих продуктів.

Таким чином, якість контенту, специфічного для в'єтнамської мови, що повертається користувачам, більш-менш постраждала та має високу ймовірність помилок, що більш небезпечно, помилок у базових знаннях.

Як в'єтнамці, ми маємо перевагу доступу до власних джерел даних. Тільки ми можемо зрозуміти характеристики в'єтнамських даних, потреби та особливості в'єтнамського народу. Тому оволодіння в'єтнамськими даними є справді ключем до оволодіння основними технологіями, які є технологіями, що служитимуть в'єтнамському народу.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 7.

Внутрішнє навчання для членів VinBigdata

Як отримати доступ до певних джерел даних, особливо враховуючи, що більшість в'єтнамців сьогодні користуються соціальними мережами з-за кордону?

Фактично, найбільшим джерелом даних про людей сьогодні (не лише про в'єтнамців) є інтернет та соціальні мережі. Однак ми все ще можемо отримувати доступ до даних та збирати їх з різних джерел, виходячи з розуміння характеристик в'єтнамських даних, залежно від характеристик, встановлених кожним проектом.

Наприклад, GPT-моделі OpenAI мають сотні, навіть трильйони параметрів, навчаються на величезних обсягах даних і коштують мільярди доларів. Порівняно з ними, ми обрали зовсім інший шлях, виходячи з наших досліджень, можливостей та ресурсів: створення в'єтнамської мовної моделі з архітектурою лише кількох мільярдів параметрів, навченої на наборі в'єтнамських даних обсягом 600 ГБ, які ми самі зібрали та вдосконалили, але з еквівалентними можливостями обробки в'єтнамської мови. Результати показують, що наша самостійно розроблена архітектура може самооптимізуватися, скорочувати час навчання мовної моделі, знижувати витрати та водночас забезпечувати якість моделі.

З якими труднощами ви та ваша команда зіткнулися в процесі дослідження та розробки продуктів штучного інтелекту?

Перший виклик – це, безумовно, час. Хвиля технологій штучного інтелекту настає дуже швидко та переживає період вибухового розвитку. У світі провідні технологічні компанії швидко запускають високоякісні продукти, які постійно оновлюються та вдосконалюються. Якщо ми будемо повільними та не запускатимемо продукти вчасно, ми неодмінно відстанемо.

З іншого боку, якщо ми хочемо створювати продукти, які можна застосовувати та вирішувати практичні соціальні проблеми, ми також повинні враховувати пошук та розвиток видатних, особливих та унікальних рис продукту.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 8.

Презентація на Дні штучного інтелекту у В'єтнамі (AI4VN 2023)

Фактично, багато людей та організацій у В'єтнамі та в усьому світі зазнали великих втрат через витік даних. Як ви ставитеся до питання безпеки даних?

Можна сказати, що будь-яка програма сьогодні походить від даних. Працюючи з даними, з одного боку, ми повинні забезпечити мету застосування даних для створення найкращої технології для життя, а з іншого боку, ми повинні забезпечити безпеку даних для окремих осіб та організацій.

Людський фактор є дуже важливою ланкою в процесі забезпечення безпеки даних. До нього належать розробники, користувачі продукту та самі користувачі. Розробники повинні усвідомлювати безпеку даних з самого початку збору та обробки даних.

Часто, коли жодних проблем не виникає, ми не усвідомлюємо важливості безпеки даних. Але якщо трапляється витік даних, збитки можуть бути величезними. Витік даних може статися через технічні проблеми або навмисні атаки з метою крадіжки даних. У разі витоку даних, особисті дані або організації можуть бути використані зловмисниками в незаконних цілях, а підприємства можуть зазнати фінансових втрат через виправлення пов'язаних проблем, навіть завдати шкоди своєму бренду.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 9.

Доктор Дао Дук Мінь та команда VinBigdata на заході

Після прагнення опанувати технології для служіння в'єтнамському народу, чи будуть кроки для просування у світ?

Будь-яка організація чи бізнес, які хочуть вивести свою продукцію на міжнародний ринок, повинні відповідати міжнародним стандартам. VinBigdata має сильні сторони в рішеннях та технологіях, тому поставити собі за мету підкорити світ є природним.

Звичайно, для розгортання для багатьох різних продуктів та застосувань необхідна підтримка міжнародних підрозділів з багаторічним досвідом та розумінням користувачів з усього світу.

Дякую!



Джерело: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm

Коментар (0)

No data
No data

У тій самій темі

У тій самій категорії

Відкрийте для себе єдине село у В'єтнамі, яке входить до списку 50 найкрасивіших сіл світу
Чому цього року популярні ліхтарі з червоними прапорами та жовтими зірками?
В'єтнам переміг у музичному конкурсі «Інтербачення 2025»
Затор на Му Канг Чай до вечора, туристи стікаються на пошуки стиглого рису в сезоні

Того ж автора

Спадщина

Фігура

Бізнес

No videos available

Новини

Політична система

Місцевий

Продукт