Dr Dao Duc Minh : « Maîtriser les données vietnamiennes est la première étape du développement et de la maîtrise de la technologie vietnamienne »
Báo Thanh niên•27/05/2024
Après avoir travaillé pour une grande organisation d'intelligence artificielle aux États-Unis, pourquoi avez-vous décidé de retourner au Vietnam pour rejoindre VinBigdata ? Aux États-Unis, bien que j'aie participé à de nombreux projets gouvernementaux d'envergure, les résultats obtenus n'étaient souvent que quelques étapes d'un processus de traitement complexe. Souvent, en raison des procédures de confidentialité très strictes des projets, je ne savais même pas comment les solutions que j'avais développées étaient utilisées. En 2017, je suis retourné au Vietnam, alors que ce pays était en phase de développement et que de nombreux problèmes liés au big data et à l'intelligence artificielle devaient être résolus. J'ai accepté l'invitation du professeur Vu Ha Van pour contribuer à l'objectif de développement de solutions technologiques vietnamiennes au service de la vie des Vietnamiens. Je trouve mon retour au Vietnam d'autant plus enrichissant qu'il me permettra de travailler sur des problématiques plus influentes.
Dr. Dao Duc Minh lors d'un atelier
NVCC
Dans la stratégie de développement de l'intelligence artificielle, quel rôle et quelle influence jouent les big data ? Les données jouent un rôle crucial et précieux dans l'entraînement de l'intelligence artificielle. Pour entraîner un modèle d'intelligence artificielle de haute qualité, nous commençons souvent par entraîner une base de données volumineuse. Par conséquent, pour obtenir une intelligence artificielle de qualité, nous avons d'abord besoin de données de qualité. Ces données doivent répondre à des normes de quantité, d'échelle, de qualité, de diversité et d'universalité. Le processus de collecte et de traitement de milliers d'heures de données, depuis l'étape de nettoyage des données brutes jusqu'à la création de données de la plus haute qualité pour alimenter le modèle d'intelligence artificielle, est très coûteux et complexe. À l'inverse, pour analyser les big data, nous devons utiliser l'intelligence artificielle afin de garantir la capacité de traiter les données avec précision à grande échelle, et ainsi obtenir des résultats plus décisifs et prédictifs. Par exemple, lors du développement d'un assistant virtuel destiné aux Vietnamiens (ViVi), nous avons dû collecter et traiter des dizaines de milliers d'heures de données audio de haute qualité, issues de centaines de milliers de voix de différentes régions, âges et genres, avec un contenu couvrant des centaines de domaines… Ou plus récemment, le lancement de ViGPT – « la première version vietnamienne de ChatGPT destinée aux utilisateurs finaux » – développé à partir d'un modèle Big Language, entièrement détenu par VinBigdata. Ce modèle a été entraîné à partir de 600 Go de données vietnamiennes raffinées issues de nombreux domaines. Grâce à notre compréhension des données et de la langue vietnamiennes, nous avons trouvé une nouvelle approche pour réduire le délai de lancement de ViGPT, en seulement 9 mois après la création de ChatGPT. C'est la résonance entre le Big Data et l'intelligence artificielle.
Que pensez-vous de l'importance de lier la recherche à la valeur pratique au service de la communauté ? Je crois que la recherche technologique ne connaît un véritable succès que lorsqu'elle s'intègre concrètement à la vie quotidienne, résout les problèmes sociaux et améliore la vie des gens. Pour créer des produits commerciaux pratiques et résoudre les problèmes commerciaux et sociaux, nous devons toujours être attentifs et nous poser la question : quelle valeur les données apporteront-elles à la vie ? Jusqu'à présent, nous avons étudié divers produits et solutions dans divers domaines et professions, notamment ViGPT, VinDr (solutions d'IA pour le diagnostic par imagerie médicale ), VinBase (plateforme d'intelligence artificielle) et Vizone (solutions d'analyse d'images intelligentes).
Avec le personnel clé de VinBigdata lors d'un événement de Vingroup Corporation
NVCC
La quatrième révolution industrielle est en plein essor à l'échelle mondiale. Quels sont, selon vous, les atouts du Vietnam ? Comparé aux révolutions précédentes, je pense que le Vietnam dispose actuellement de nombreux atouts pour percer dans cette révolution industrielle 4.0 et améliorer sa position sur la carte mondiale . Les deux clés pour atteindre cet objectif sont les données et les personnes. Le Vietnam compte actuellement près de 100 millions d'habitants, dont une forte proportion de jeunes utilisent des téléphones et des ordinateurs personnels. De plus, nous disposons d'experts reconnus en intelligence artificielle, d'un personnel jeune et qualifié en technologies de l'information et d'excellentes bases en mathématiques. Quelles sont donc les limites ? La première limite est que, malgré une population importante, nous rencontrons encore des difficultés à maîtriser les données, notamment leur standardisation et leur synchronisation au niveau des installations, des entreprises et des services administratifs. De plus, nous sommes confrontés à d'autres contraintes, telles que des ressources d'investissement limitées, notamment dans les infrastructures de calcul haute performance.
Selon vous, quelle est l'importance de la maîtrise des données vietnamiennes dans la création et la maîtrise des technologies au service des Vietnamiens ? Il existe actuellement de nombreux produits d'intelligence artificielle innovants dans le monde, notamment des applications d'IA basées sur de grands modèles linguistiques tels que ChatGPT d'OpenAI ou Bard de Google. Cependant, le vietnamien n'est pas la langue de base pour le développement de ces produits. Par conséquent, la qualité du contenu vietnamien proposé aux utilisateurs est plus ou moins affectée et présente un risque élevé d'erreurs, et plus grave encore, d'erreurs de connaissances de base. En tant que Vietnamiens, nous avons l'avantage d'accéder à nos propres sources de données. Nous sommes les seuls à pouvoir comprendre les caractéristiques des données vietnamiennes, leurs besoins et leurs spécificités. Par conséquent, la maîtrise des données vietnamiennes est essentielle pour maîtriser les technologies de base, qui serviront les Vietnamiens.
Formation interne pour les membres de VinBigdata
NVCC
Comment accéder à des sources de données spécifiques, surtout lorsque la plupart des Vietnamiens utilisent aujourd'hui des réseaux sociaux depuis l'étranger ? En réalité, la plus grande source de données humaines aujourd'hui (et pas seulement vietnamiennes) se trouve sur Internet et les réseaux sociaux. Cependant, nous pouvons toujours accéder à des données et les collecter à partir de différentes sources, en nous basant sur la compréhension des caractéristiques des données vietnamiennes, selon les caractéristiques définies par chaque projet. Par exemple, les modèles GPT d'OpenAI comportent des centaines, voire des milliards de paramètres, sont entraînés sur d'énormes volumes de données et coûtent des milliards de dollars. Par rapport à eux, nous avons choisi une orientation radicalement différente, basée sur nos recherches, nos capacités et nos ressources : créer un modèle de langue vietnamienne avec une architecture de seulement quelques milliards de paramètres, entraîné sur un ensemble de données vietnamiennes de 600 Go que nous avons collectées et affinées nous-mêmes, mais avec des capacités de traitement équivalentes. Les résultats montrent que notre architecture développée en interne peut s'auto-optimiser, réduire le temps d'entraînement du modèle de langue et les coûts tout en garantissant sa qualité. Quels sont les défis que vous et votre équipe avez rencontrés dans la recherche et le développement de produits d'intelligence artificielle ? Le premier défi est sans aucun doute le temps. La vague technologique de l'intelligence artificielle progresse à un rythme effréné et connaît un essor considérable. Partout dans le monde, les entreprises technologiques leaders ont rapidement lancé des produits très complets, constamment mis à jour et améliorés. Si nous tardons à lancer nos produits à temps, nous risquons de prendre du retard. En revanche, si nous voulons créer des produits applicables et résoudre des problèmes sociaux concrets, nous devons également envisager de développer leurs caractéristiques exceptionnelles, spécifiques et uniques.
Présentation à la Journée de l'intelligence artificielle du Vietnam (AI4VN 2023)
NVCC
En réalité, de nombreuses personnes et organisations au Vietnam et dans le monde ont subi d'importants dommages suite à des fuites de données. Comment percevez-vous la question de la sécurité des données ? On peut dire que toute application actuelle est issue de données. L'exploitation des données doit d'une part garantir leur exploitation pour créer les meilleures technologies au service de la vie quotidienne, et d'autre part garantir la sécurité des données pour les particuliers et les organisations. Le facteur humain est un maillon essentiel de la sécurité des données : développeurs, utilisateurs de produits et utilisateurs. Pour les développeurs, la sensibilisation à la sécurité des données doit être présente dès le début de la collecte et du traitement des données. Souvent, en l'absence de problème, l'importance de la sécurité des données est méconnue. Pourtant, une fuite de données peut avoir des conséquences considérables. Les violations de données peuvent être dues à des problèmes techniques ou à des vols de données intentionnels. En cas de violation de données, les informations des particuliers ou des organisations peuvent être utilisées à des fins illégales par des personnes malintentionnées, tandis que les entreprises peuvent subir des pertes financières pour résoudre les problèmes liés à la sécurité, voire nuire à leur image de marque.
Le Dr Dao Duc Minh et l'équipe VinBigdata lors d'un événement
NVCC
Après avoir aspiré à maîtriser la technologie au service des Vietnamiens, il y aura sûrement des étapes pour conquérir le monde. Toute organisation ou entreprise souhaitant commercialiser ses produits à l'international doit se conformer aux normes internationales. VinBigdata possède des atouts en matière de solutions et de technologie ; il est donc naturel de se fixer une vision pour conquérir le monde. Bien sûr, pour déployer une large gamme de produits et d'applications, il est nécessaire de s'appuyer sur des unités internationales possédant de nombreuses années d'expérience et une compréhension approfondie des utilisateurs du monde entier. Merci !
Comment (0)