Dr Dao Duc Minh : « La maîtrise des données vietnamiennes est la première étape du développement et de la maîtrise de la technologie vietnamienne »
Báo Thanh niên•27/05/2024
Après avoir travaillé pour une grande organisation d'intelligence artificielle aux États-Unis, pourquoi avez-vous décidé de retourner au Vietnam pour rejoindre VinBigdata ? Aux États-Unis, bien que j'aie participé à de nombreux projets gouvernementaux d'envergure, les résultats obtenus n'étaient souvent que quelques étapes d'un processus de traitement complexe. Souvent, en raison des procédures de confidentialité très strictes des projets, je ne savais même pas comment les solutions que j'avais développées étaient utilisées. En 2017, je suis retourné au Vietnam, alors que le pays était en phase de développement et que de nombreux problèmes liés au big data et à l'intelligence artificielle devaient être résolus. J'ai accepté l'invitation du professeur Vu Ha Van pour collaborer à l'objectif de développer des solutions technologiques vietnamiennes au service de la vie des Vietnamiens. Je trouve mon retour au Vietnam d'autant plus enrichissant, car je pourrai travailler sur des problèmes à plus fort impact.
Dr Dao Duc Minh lors d'un atelier
NVCC
Dans la stratégie de développement de l'intelligence artificielle, quel est le rôle et l'influence du big data ? Les données jouent un rôle essentiel et précieux dans l'entraînement de l'intelligence artificielle. Pour entraîner un modèle d'intelligence artificielle de haute qualité, nous commençons souvent par entraîner une base de données volumineuse. Par conséquent, pour obtenir une intelligence artificielle de qualité, nous avons d'abord besoin de données de qualité. Ces données doivent répondre à des normes de quantité, d'échelle, de qualité, de diversité et d'universalité. Le processus de collecte et de traitement de milliers d'heures de données, depuis l'étape de nettoyage des données brutes jusqu'à la création de données de la plus haute qualité pour alimenter le modèle d'intelligence artificielle, est très coûteux et complexe. En revanche, pour analyser le big data, nous devons utiliser l'intelligence artificielle afin de garantir la capacité de traiter les données avec précision à grande échelle, et ainsi obtenir des résultats plus décisifs et prédictifs. Par exemple, lors du développement d'un assistant virtuel destiné aux Vietnamiens (ViVi), nous avons dû collecter et traiter des dizaines de milliers d'heures de données audio de haute qualité, issues de centaines de milliers de voix de différentes régions, âges et genres, avec un contenu couvrant des centaines de domaines… Ou plus récemment, le lancement de ViGPT – « La première version vietnamienne de ChatGPT pour les utilisateurs finaux » – développé à partir d'un modèle Big Language entièrement détenu par VinBigdata. Ce modèle a été entraîné à partir de 600 Go de données vietnamiennes raffinées issues de nombreux domaines. Grâce à notre compréhension des données et de la langue vietnamiennes, nous avons trouvé une nouvelle approche pour réduire le délai de lancement de ViGPT à seulement 9 mois après la création de ChatGPT. C'est la résonance entre le Big Data et l'intelligence artificielle.
Que pensez-vous de l'importance de lier la recherche à la valeur pratique au service de la communauté ? Je crois que la recherche technologique ne connaît un véritable succès que lorsqu'elle s'intègre concrètement à la vie, résout des problèmes sociaux et améliore la vie des gens. Pour créer des produits commerciaux pratiques et résoudre des problèmes commerciaux et sociaux, nous devons toujours être attentifs et nous poser la question : quelle valeur les données apporteront-elles à la vie ? Jusqu'à présent, nous avons étudié divers produits et solutions dans divers secteurs et domaines, notamment ViGPT, VinDr (solutions d'IA pour le diagnostic par imagerie médicale ), VinBase (plateforme d'intelligence artificielle) et Vizone (solutions d'analyse d'images intelligentes).
Avec le personnel clé de VinBigdata lors d'un événement de Vingroup Corporation
NVCC
La quatrième révolution industrielle se déroule à l'échelle mondiale. Quels sont, selon vous, les atouts du Vietnam ? Comparé aux révolutions précédentes, je pense que le Vietnam dispose actuellement de nombreux atouts pour percer dans cette révolution industrielle 4.0 et améliorer sa position sur la scène mondiale . Les deux clés pour y parvenir sont les données et les personnes. Le Vietnam compte actuellement près de 100 millions d'habitants, dont une forte proportion de jeunes utilisent des téléphones et des ordinateurs personnels. De plus, nous disposons d'experts prestigieux en intelligence artificielle, d'un personnel jeune et qualifié en technologies de l'information et d'excellentes bases en mathématiques. Quelles sont donc les limites ? La première limite est que, malgré une population importante, nous rencontrons encore des difficultés à maîtriser les données, notamment leur standardisation et leur synchronisation au sein des installations, des unités commerciales et des administrations. De plus, nous sommes confrontés à d'autres contraintes, telles que des ressources d'investissement limitées, notamment dans les infrastructures de calcul haute performance.
Selon vous, quelle est l'importance de la maîtrise des données vietnamiennes dans la création et la maîtrise des technologies au service des Vietnamiens ? Il existe actuellement de nombreux produits d'intelligence artificielle de pointe dans le monde, notamment des applications d'IA basées sur de grands modèles linguistiques tels que ChatGPT d'OpenAI ou Bard de Google. Cependant, le vietnamien n'est pas la langue de base pour le développement de ces produits. Par conséquent, la qualité du contenu vietnamien proposé aux utilisateurs est plus ou moins affectée et présente un risque élevé d'erreurs, et plus grave encore, d'erreurs de connaissances de base. En tant que Vietnamiens, nous avons l'avantage d'accéder à nos propres sources de données. Nous sommes les seuls à pouvoir comprendre les caractéristiques des données vietnamiennes, leurs besoins et leurs spécificités. Par conséquent, la maîtrise des données vietnamiennes est essentielle pour maîtriser les technologies de base, qui sont aussi celles qui serviront les Vietnamiens.
Formation interne pour les membres de VinBigdata
NVCC
Comment accéder à des sources de données spécifiques, surtout lorsque la plupart des Vietnamiens utilisent aujourd'hui des réseaux sociaux depuis l'étranger ? En réalité, la plus grande source de données humaines aujourd'hui (et pas seulement vietnamiennes) se trouve sur Internet et les réseaux sociaux. Cependant, nous pouvons toujours accéder à des données et les collecter à partir de différentes sources, en nous basant sur une compréhension des caractéristiques des données vietnamiennes, en fonction des caractéristiques définies par chaque projet. Par exemple, les modèles GPT d'OpenAI comportent des centaines, voire des milliards de paramètres, sont entraînés sur d'énormes quantités de données et coûtent des milliards de dollars. Par rapport à eux, nous avons choisi une orientation complètement différente, basée sur nos recherches, nos capacités et nos ressources : créer un modèle de langue vietnamienne avec une architecture de seulement quelques milliards de paramètres, entraîné sur un ensemble de 600 Go de données vietnamiennes que nous avons collectées et affinées nous-mêmes, mais qui offre la même capacité à traiter le vietnamien. Les résultats montrent que notre architecture auto-développée peut s'auto-optimiser, réduire le temps d'entraînement des modèles linguistiques et les coûts tout en garantissant leur qualité. Quels sont les défis que vous et votre équipe avez rencontrés dans la recherche et le développement de produits d'intelligence artificielle ? Le premier défi est sans aucun doute le temps. La vague technologique de l'intelligence artificielle progresse à un rythme effréné et connaît une période d'explosion. Partout dans le monde, les entreprises technologiques leaders ont rapidement lancé des produits très complets, constamment mis à jour et améliorés. Si nous tardons à lancer nos produits à temps, nous risquons de prendre du retard. En revanche, si nous voulons créer des produits applicables et résoudre des problèmes sociaux concrets, nous devons également envisager de développer leurs caractéristiques exceptionnelles, spécifiques et uniques.
Présentation à la Journée de l'intelligence artificielle du Vietnam (AI4VN 2023)
NVCC
En réalité, de nombreuses personnes et organisations au Vietnam et dans le monde ont subi d'importantes pertes suite à des fuites de données. Comment percevez-vous la question de la sécurité des données ? On peut dire que toute application actuelle est issue des données. Lorsque nous travaillons avec des données, nous devons d'une part veiller à leur utilisation pour créer la meilleure technologie possible et, d'autre part, garantir la sécurité des données pour les personnes et les organisations. Le facteur humain est un maillon essentiel du processus de sécurité des données. Il inclut les développeurs, les utilisateurs de produits et les utilisateurs. Pour les développeurs, la sensibilisation à la sécurité des données doit être présente dès le début de la collecte et du traitement des données. Souvent, en l'absence de problème, nous ignorons l'importance de la sécurité des données. Pourtant, une fuite de données peut avoir des conséquences considérables. Les violations de données peuvent survenir à la suite de problèmes techniques ou d'attaques intentionnelles de vol de données. En cas de violation de données, les informations des personnes ou des organisations peuvent être utilisées à des fins illégales par des personnes malintentionnées, tandis que les entreprises peuvent subir des pertes financières pour résoudre les problèmes liés, voire nuire à leur image de marque.
Le Dr Dao Duc Minh et l'équipe VinBigdata lors d'un événement
NVCC
Après avoir aspiré à maîtriser la technologie au service des Vietnamiens, il est nécessaire de prendre des mesures pour conquérir le monde. Toute organisation ou entreprise souhaitant commercialiser ses produits à l'international doit se conformer aux normes internationales. VinBigdata possède des atouts en matière de solutions et de technologies ; il est donc naturel de se fixer une vision pour conquérir le monde. Bien sûr, pour déployer une large gamme de produits et d'applications, il est nécessaire de s'appuyer sur des unités internationales possédant de nombreuses années d'expérience et une compréhension approfondie des utilisateurs du monde entier. Merci !
Comment (0)