Après avoir travaillé pour une grande entreprise d'intelligence artificielle aux États-Unis, pourquoi avoir décidé de retourner au Vietnam pour rejoindre VinBigdata ?
Durant mon séjour aux États-Unis, bien que j'aie participé à de nombreux projets gouvernementaux d'envergure, les résultats que j'ai obtenus ne représentaient souvent que quelques étapes d'un processus plus vaste. Bien souvent, en raison de la stricte confidentialité des projets, j'ignorais même comment les solutions que j'avais développées étaient utilisées.
En 2017, à mon retour au Vietnam, le secteur était en plein développement et de nombreux problèmes liés au big data et à l'intelligence artificielle restaient à résoudre. J'ai accepté l'invitation du professeur Vu Ha Van à œuvrer ensemble à la réalisation de l'objectif de développer des solutions technologiques vietnamiennes au service de la population. Mon retour au Vietnam s'est avéré d'autant plus enrichissant que j'allais pouvoir travailler sur des problématiques à fort impact.
Le Dr Dao Duc Minh dans un atelier
Monsieur, quel rôle et quelle influence jouent les mégadonnées dans la stratégie de développement de l'intelligence artificielle ?
Les données jouent un rôle essentiel dans l'apprentissage de l'intelligence artificielle. L'entraînement d'un modèle d'intelligence artificielle performant commence souvent par l'entraînement d'une base de données importante. Par conséquent, pour obtenir une intelligence artificielle de qualité, il est indispensable de disposer de données de qualité.
Des données de qualité doivent répondre à des normes strictes en termes de quantité, d'échelle, de qualité, de variété et d'universalité. Le processus de collecte et de traitement de milliers d'heures de données, depuis le nettoyage des données brutes jusqu'à l'obtention de données de la plus haute qualité pour alimenter les modèles d'intelligence artificielle, est extrêmement coûteux et complexe. À l'inverse, l'analyse du Big Data requiert le recours à l'intelligence artificielle afin de garantir un traitement précis des données à grande échelle et, par conséquent, des résultats plus pertinents et prédictifs.
Par exemple, dans le cadre du développement d'un assistant virtuel destiné aux Vietnamiens (ViVi), nous avons dû collecter et traiter des dizaines de milliers d'heures de données audio de haute qualité, provenant de centaines de milliers de voix de différentes régions, d'âges et de sexes variés, et couvrant des centaines de domaines...
Plus récemment, nous avons lancé ViGPT, la première version vietnamienne de ChatGPT destinée aux utilisateurs finaux. Ce modèle linguistique, développé à partir d'un modèle de grande envergure entièrement détenu par VinBigdata, a été entraîné sur 600 Go de données vietnamiennes affinées, issues de nombreux domaines. Grâce à notre connaissance approfondie des données et de la langue vietnamiennes, nous avons mis au point une nouvelle approche permettant de lancer ViGPT en seulement neuf mois après la création de ChatGPT.
C’est la synergie entre le big data et l’intelligence artificielle.
Quel est votre avis sur la manière de lier la recherche à des applications pratiques au service de la communauté ?
- Je crois que la recherche technologique n'est véritablement réussie que lorsqu'elle s'intègre concrètement à la vie quotidienne, résout les problèmes sociaux et améliore le quotidien des gens.
Pour créer des produits commerciaux pratiques qui résolvent les problèmes commerciaux et sociaux, nous devons toujours être attentifs et nous poser la question suivante : quelle valeur les données apporteront-elles à la vie ?
Jusqu'à présent, nous avons recherché et développé une variété de produits et de solutions pour divers secteurs et domaines, notamment ViGPT, VinDr - fournissant des solutions d'IA dans le diagnostic d'imagerie médicale , VinBase - une plateforme d'intelligence artificielle biologique, ou Vizone - un ensemble de solutions d'analyse d'images intelligentes.
En présence de membres clés de VinBigdata lors d'un événement de Vingroup Corporation
La quatrième révolution industrielle se déploie avec force à l'échelle mondiale. Quels atouts le Vietnam possède-t-il selon vous ?
Comparativement aux révolutions précédentes, je crois que le Vietnam dispose actuellement de nombreux atouts pour réussir cette quatrième révolution industrielle, contribuant ainsi à améliorer sa position sur la scène internationale. Les deux clés de la réussite résident dans les données et le capital humain.
Le Vietnam compte actuellement près de 100 millions d'habitants, dont une forte proportion de jeunes utilisent des téléphones et des ordinateurs personnels. De plus, le pays dispose d'experts reconnus en intelligence artificielle et de jeunes professionnels qualifiés dans le domaine des technologies de l'information, ainsi que d'excellentes bases en mathématiques.
Quelles sont donc les limitations ?
La première limitation évidente est que, malgré une population importante, nous avons toujours des difficultés à maîtriser les données, et plus particulièrement à les standardiser et à les synchroniser au niveau des établissements, des entreprises et des unités administratives.
De plus, nous sommes également confrontés à d'autres contraintes telles que des ressources d'investissement limitées, notamment en matière d'investissement dans les infrastructures de calcul haute performance.
Selon vous, quelle est l'importance de la maîtrise des données vietnamiennes dans le processus de création et de maîtrise des technologies destinées à améliorer la vie des Vietnamiens ?
Il existe actuellement de nombreux produits d'IA de pointe dans le monde, généralement des applications d'IA basées sur de grands modèles de langage tels que ChatGPT d'OpenAI ou Bard de Google. Cependant, le vietnamien ne constitue pas le principal groupe linguistique pour le développement de ces produits.
Par conséquent, la qualité du contenu spécifique au vietnamien renvoyé aux utilisateurs est plus ou moins affectée et présente un risque élevé d'erreurs, plus dangereusement encore, d'erreurs dans les connaissances de base.
En tant que Vietnamiens, nous avons l'avantage d'accéder à nos propres sources de données. Seuls nous sommes capables de comprendre les caractéristiques des données vietnamiennes, ainsi que les besoins et les spécificités du peuple vietnamien. Par conséquent, la maîtrise des données vietnamiennes est véritablement la clé de la maîtrise des technologies fondamentales, celles qui seront au service du peuple vietnamien.
Formation interne pour les membres de VinBigdata
Comment accéder à des sources de données spécifiques, surtout quand la plupart des Vietnamiens utilisent aujourd'hui les réseaux sociaux depuis l'étranger ?
En réalité, la principale source de données humaines aujourd'hui (et pas seulement vietnamiennes) se trouve sur Internet et les réseaux sociaux. Cependant, nous pouvons toujours accéder à des données provenant de différentes sources et les collecter, en nous appuyant sur la compréhension des spécificités des données vietnamiennes et en fonction des critères définis pour chaque projet.
Par exemple, les modèles GPT d'OpenAI comportent des centaines, voire des billions de paramètres, sont entraînés sur d'énormes quantités de données et coûtent des milliards de dollars. À l'inverse, nous avons opté pour une approche radicalement différente, fondée sur nos recherches, nos compétences et nos ressources : la création d'un modèle de langue vietnamienne doté d'une architecture de seulement quelques milliards de paramètres, entraîné sur un ensemble de données vietnamiennes de 600 Go que nous avons collecté et affiné nous-mêmes, tout en offrant des capacités de traitement du vietnamien équivalentes. Les résultats démontrent que notre architecture, développée en interne, est capable de s'auto-optimiser, de raccourcir le temps d'entraînement du modèle de langue, de réduire les coûts, tout en garantissant la qualité du modèle.
Quels sont les défis que vous et votre équipe avez rencontrés lors du processus de recherche et de développement de produits d'intelligence artificielle ?
Le premier défi est sans aucun doute le temps. La vague de l'intelligence artificielle déferle à une vitesse fulgurante et connaît actuellement une croissance exponentielle. Les entreprises technologiques leaders mondiales ont rapidement lancé des produits très aboutis, constamment mis à jour et améliorés. Si nous tardons à commercialiser nos produits en temps voulu, nous prendrons inévitablement du retard.
D'autre part, si nous voulons créer des produits applicables et capables de résoudre des problèmes sociaux concrets, nous devons également envisager de trouver et de développer les caractéristiques exceptionnelles, spécifiques et uniques du produit.
Présentation lors de la Journée vietnamienne de l'intelligence artificielle (AI4VN 2023)
En réalité, de nombreuses personnes et organisations au Vietnam et dans le monde entier ont subi d'importantes pertes suite à des fuites de données. Quel est votre point de vue sur la question de la sécurité des données ?
On peut affirmer que toute application actuelle repose sur des données. Lorsqu'on travaille avec des données, il est impératif, d'une part, de veiller à ce que leur utilisation permette de créer les meilleures technologies pour améliorer la vie quotidienne et, d'autre part, de garantir la sécurité des données des individus et des organisations.
Le facteur humain est un maillon essentiel du processus de garantie de la sécurité des données. Il concerne les développeurs, les utilisateurs du produit et les utilisateurs finaux. Pour les développeurs, la sensibilisation à la sécurité des données doit être présente dès le début de la collecte et du traitement des données.
Souvent, en l'absence de problème, nous ignorons l'importance de la sécurité des données. Pourtant, une fuite de données peut avoir des conséquences désastreuses. Ces fuites peuvent être dues à des problèmes techniques ou à des attaques intentionnelles visant à voler des données. En cas de fuite, les informations des particuliers et des organisations peuvent être utilisées à des fins illégales, et les entreprises peuvent subir des pertes financières pour réparer les problèmes engendrés, voire voir leur image de marque ternie.
Le Dr Dao Duc Minh et l'équipe VinBigdata lors d'un événement
Après avoir nourri l'ambition de maîtriser la technologie au service du peuple vietnamien, y aura-t-il des étapes pour s'étendre au monde entier ?
Toute organisation ou entreprise souhaitant commercialiser ses produits à l'international doit se conformer aux normes internationales. VinBigdata possède une expertise reconnue en matière de solutions et de technologies ; il est donc naturel pour elle d'avoir pour ambition de conquérir le monde.
Bien entendu, pour un déploiement sur de nombreux produits et applications différents, il est nécessaire de bénéficier du soutien d'unités internationales possédant de nombreuses années d'expérience et une bonne compréhension des utilisateurs du monde entier.
Merci!
Source : https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm






Comment (0)