Dr Dao Duc Minh : « La maîtrise des données vietnamiennes est la première étape du développement et de la maîtrise de la technologie vietnamienne. »
Báo Thanh niên•27/05/2024
Après avoir travaillé pour une grande entreprise d'intelligence artificielle aux États-Unis, pourquoi avoir décidé de rentrer au Vietnam pour rejoindre VinBigdata ? Aux États-Unis, bien que j'aie participé à de nombreux projets gouvernementaux d'envergure, mes résultats se limitaient souvent à quelques étapes d'un processus de traitement complexe. Fréquemment, en raison des procédures de confidentialité très strictes en vigueur, j'ignorais même comment les solutions que j'avais développées étaient utilisées. En 2017, je suis rentré au Vietnam, alors que le pays était en pleine expansion et que de nombreux problèmes liés au big data et à l'intelligence artificielle restaient à résoudre. J'ai accepté l'invitation du professeur Vu Ha Van à œuvrer ensemble pour développer des solutions technologiques vietnamiennes au service de la population. Mon retour au Vietnam est d'autant plus significatif que je pourrai travailler sur des problématiques ayant un impact plus important.
Le Dr Dao Duc Minh dans un atelier
NVCC
Dans la stratégie de développement de l'intelligence artificielle, quel rôle et quelle influence jouent les mégadonnées, Monsieur ? Les données jouent un rôle essentiel et précieux dans l'entraînement de l'intelligence artificielle. Pour entraîner un modèle d'intelligence artificielle performant, on commence souvent par l'entraînement d'une vaste base de données. Par conséquent, pour obtenir une intelligence artificielle de qualité, il est indispensable de disposer de données de qualité. Ces données doivent répondre à des critères stricts de quantité, d'échelle, de qualité, de diversité et d'universalité. Le processus de collecte et de traitement de milliers d'heures de données, depuis le nettoyage des données brutes jusqu'à l'obtention de données de la plus haute qualité pour alimenter le modèle d'intelligence artificielle, est extrêmement coûteux et complexe. À l'inverse, pour analyser les mégadonnées, il est nécessaire d'utiliser l'intelligence artificielle afin de garantir la capacité de traiter les données avec précision à grande échelle, et ainsi produire des résultats plus pertinents et prédictifs. Par exemple, lors du développement de ViVi, un assistant virtuel destiné aux Vietnamiens, nous avons dû collecter et traiter des dizaines de milliers d'heures de données audio de haute qualité, provenant de centaines de milliers de voix de différentes régions, d'âges et de genres variés, et couvrant des centaines de domaines. Plus récemment, nous avons lancé ViGPT, la première version vietnamienne de ChatGPT pour les utilisateurs finaux, développée à partir d'un modèle de langage Big Data entièrement détenu par VinBigdata. Ce modèle a été entraîné sur 600 Go de données vietnamiennes affinées, issues de nombreux domaines. Grâce à notre connaissance approfondie des données et de la langue vietnamiennes, nous avons trouvé une nouvelle approche permettant de réduire considérablement le délai de lancement de ViGPT, seulement neuf mois après celui de ChatGPT. C'est là toute la convergence entre le Big Data et l'intelligence artificielle.
Quel est votre point de vue sur le lien entre la recherche et son utilité pratique au service de la communauté ? – Je crois que la recherche technologique n’est véritablement réussie que lorsqu’elle trouve des applications concrètes, résout des problèmes sociaux et améliore le quotidien. Pour créer des produits commercialisables et répondre aux enjeux économiques et sociaux, il est essentiel de se poser constamment la question : quelle valeur ajoutée les données peuvent-elles apporter ? À ce jour, nous avons développé divers produits et solutions dans différents domaines et professions, notamment ViGPT et VinDr (solutions d’IA pour le diagnostic d’imagerie médicale ), VinBase (plateforme d’intelligence artificielle) et Vizone (suite de solutions d’analyse d’images intelligentes).
En présence de membres clés de VinBigdata lors d'un événement de Vingroup Corporation
NVCC
La quatrième révolution industrielle se déploie avec force à l'échelle mondiale. Quels atouts le Vietnam possède-t-il, selon vous ? Comparé aux révolutions précédentes, le Vietnam dispose actuellement de nombreux atouts pour réussir cette révolution industrielle 4.0 et renforcer sa position sur la scène internationale . Les deux clés de la réussite résident dans les données et le capital humain. Le Vietnam compte près de 100 millions d'habitants, dont une forte proportion de jeunes utilisent des téléphones et des ordinateurs personnels. De plus, nous comptons des experts reconnus en intelligence artificielle, ainsi qu'une jeune génération de professionnels hautement qualifiés dans le domaine des technologies de l'information et un solide bagage en mathématiques. Quelles sont donc les limites ? La première limite que l'on observe est que, malgré une population nombreuse, nous peinons encore à maîtriser les données, notamment à les standardiser et à les synchroniser au sein des établissements, des entreprises et des administrations. Par ailleurs, nous sommes confrontés à d'autres contraintes, telles que des ressources d'investissement limitées, en particulier dans les infrastructures de calcul haute performance.
Selon vous, quelle est l'importance de la maîtrise des données vietnamiennes dans le développement de technologies au service des Vietnamiens ? Actuellement, de nombreux produits d'intelligence artificielle de pointe existent à travers le monde, notamment des applications d'IA basées sur de grands modèles linguistiques tels que ChatGPT d'OpenAI ou Bard de Google. Or, le vietnamien n'est pas la langue principale de développement de ces produits. Par conséquent, la qualité du contenu adapté au vietnamien proposé aux utilisateurs s'en trouve affectée, avec un risque élevé d'erreurs, voire d'erreurs de compréhension fondamentale. En tant que Vietnamiens, nous avons l'avantage d'accéder à nos propres sources de données. Nous seuls sommes en mesure de comprendre les caractéristiques des données vietnamiennes, ainsi que les besoins et les spécificités de la population vietnamienne. Ainsi, la maîtrise des données vietnamiennes est essentielle à la maîtrise des technologies fondamentales, celles qui seront au service des Vietnamiens.
Formation interne pour les membres de VinBigdata
NVCC
Comment accéder à des sources de données spécifiques, surtout quand la plupart des Vietnamiens utilisent aujourd'hui les réseaux sociaux depuis l'étranger ? En réalité, la plus grande source de données humaines (et pas seulement vietnamiennes) se trouve actuellement sur Internet et les réseaux sociaux. Cependant, nous pouvons toujours accéder à des données et les collecter à partir de différentes sources, en nous basant sur la compréhension des caractéristiques des données vietnamiennes, selon les spécifications de chaque projet. Par exemple, les modèles GPT d'OpenAI comportent des centaines, voire des billions de paramètres, sont entraînés sur d'énormes quantités de données et coûtent des milliards de dollars. Contrairement à eux, nous avons opté pour une approche totalement différente, en fonction de nos recherches, de nos compétences et de nos ressources : créer un modèle de langue vietnamienne avec une architecture de seulement quelques milliards de paramètres, entraîné sur un ensemble de données vietnamiennes de 600 Go que nous avons collecté et affiné nous-mêmes, mais avec des capacités équivalentes en termes de traitement du vietnamien. Les résultats montrent que notre architecture, que nous avons développée en interne, s'auto-optimise, raccourcit le temps d'entraînement du modèle de langue et réduit les coûts, tout en garantissant la qualité du modèle. Quels sont les défis que vous et votre équipe avez rencontrés lors de la recherche et du développement de produits d'intelligence artificielle ? Le premier défi est sans aucun doute le temps. La vague de l'intelligence artificielle déferle à une vitesse fulgurante et connaît actuellement une croissance exponentielle. Les entreprises technologiques de pointe ont rapidement lancé des produits très aboutis, constamment mis à jour et améliorés. Si nous tardons à commercialiser nos produits en temps voulu, nous serons assurément distancés. Par ailleurs, si nous souhaitons créer des produits applicables et capables de résoudre des problèmes sociaux concrets, nous devons également nous attacher à identifier et à développer des caractéristiques exceptionnelles, spécifiques et uniques.
Présentation lors de la Journée vietnamienne de l'intelligence artificielle (AI4VN 2023)
NVCC
En réalité, de nombreuses personnes et organisations, au Vietnam comme dans le monde, ont subi d'importants préjudices suite à des fuites de données. Comment envisagez-vous la question de la sécurité des données ? On peut affirmer que toute application actuelle repose sur des données. Lorsque l'on travaille avec des données, il est impératif, d'une part, de veiller à ce que leur utilisation permette de créer les meilleures technologies pour améliorer la vie, et d'autre part, de garantir la sécurité des données des individus et des organisations. Le facteur humain est un maillon essentiel de ce processus. Il concerne les développeurs, les utilisateurs finaux et les utilisateurs finaux. Pour les développeurs, la sensibilisation à la sécurité des données doit être présente dès le début de la collecte et du traitement des données. Souvent, en l'absence de problème, nous ne prenons pas conscience de l'importance de la sécurité des données. Mais en cas de fuite, les dégâts peuvent être considérables. Les violations de données peuvent être dues à des problèmes techniques ou à des attaques intentionnelles. Lorsqu'une violation de données survient, les informations des individus ou des organisations peuvent être utilisées à des fins illégales par des personnes mal intentionnées, tandis que les entreprises peuvent subir des pertes financières pour résoudre les problèmes engendrés, voire une atteinte à leur image de marque.
Le Dr Dao Duc Minh et l'équipe VinBigdata lors d'un événement
NVCC
Après avoir nourri l'ambition de maîtriser la technologie au service du peuple vietnamien, l'expansion à l'international est-elle inévitable ? Toute organisation ou entreprise souhaitant commercialiser ses produits à l'international se doit de respecter les normes internationales. VinBigdata, forte de ses solutions et de sa technologie, ambitionne naturellement de conquérir le monde. Bien entendu, le déploiement de ces solutions pour une large gamme de produits et d'applications requiert le soutien d'entités internationales bénéficiant d'une longue expérience et d'une excellente connaissance des utilisateurs du monde entier. Merci !
Comment (0)