Les pays devraient développer une IA capable de générer des messages dans leurs propres langues.

Le message ci-dessus a été partagé par M. Ha Jung Woo, responsable du département de l'innovation cloud de la société Naver (Corée), lors du Festival vietnamien de l'intelligence artificielle (AI4VN) 2023, qui s'est tenu à Hô Chi Minh-Ville le 22 septembre.

M. Ha Jung Woo, responsable du département de l'innovation cloud, Naver Company (Corée).

L'IA générative est une forme d'intelligence artificielle capable de générer de nouveaux contenus et idées sous diverses formes : textes, images, vidéos, musique , etc. À partir de là, elle peut créer de nouvelles chansons, des médicaments, des films, des jeux, etc., grâce à l'utilisation de grands modèles de langage (LLM).

D'après une estimation récente de McKinsey, l'IA générative pourrait contribuer à hauteur de 4 400 milliards de dollars à l' économie mondiale. Cette étude s'appuie sur 60 000 applications d'IA générative dans différents secteurs d'activité.

Selon M. Ha Jung Woo, les principaux modèles de langage utilisés aujourd'hui pour développer l'IA générative utilisent tous l'anglais. Par conséquent, lorsque le modèle est exécuté sur d'autres langues, il sera incomplet et comportera des erreurs, et comme il est en anglais, son utilisation crée des biais inutiles, notamment des biais culturels.

C’est pourquoi il estime que la maîtrise des données et des technologies est un facteur important que de nombreux pays prendront en compte à l’avenir, afin de s’affranchir du risque de dépendance vis-à-vis d’autres nations. Par exemple, en Corée, Naver a également créé un vaste modèle linguistique coréen destiné à accompagner le gouvernement et les entreprises locales dans le déploiement d’applications d’IA.

Partageant le même avis, le Dr Dao Duc Minh, directeur général de VinBigdata, estime également que les Vietnamiens peuvent créer des produits d'IA de conception nationale afin de contribuer à garantir la sécurité et l'exactitude des informations, et de mieux servir le gouvernement et la société...

Selon M. Dao Duc Minh, lorsque chatGPT a été lancé fin 2022, cela a créé une vague de concurrence clandestine entre les pays et les grandes entreprises dans la recherche et le lancement de modèles d'IA génératifs et de grands modèles de langage.

Aux États-Unis, outre chatGPT d'OpenAI, on trouve d'autres modèles d'IA générative comme Bard de Google et Titan d'Amazon. En Chine, citons Earnie Bot de Baidu, SenseChat de SenseTime et Hunyan de Tencent. En Corée, on trouve HyperClova X de Naver…

M. Dao Duc Minh a déclaré que développer un modèle de langage de grande envergure pour l'IA générative est une tâche complexe et coûteuse. Si l'IA générative est appliquée à partir des plateformes de modèles de langage de grande taille disponibles dans le monde, le Vietnam s'expose à de nombreux risques. Par exemple, avec les grands modèles de langues étrangères, les données vietnamiennes ne représentent qu'une très faible proportion, l'anglais étant prédominant. Il est donc difficile de garantir la précision, la sécurité des données et l'adéquation aux besoins de l'entreprise.

Par exemple, les grands modèles de traitement des langues étrangères comportent des centaines de milliards de paramètres. L'exécution d'un modèle réel exige une infrastructure informatique colossale, mais la qualité n'est pas à la hauteur, car le modèle d'IA peut fournir des réponses erronées, notamment en ce qui concerne les connaissances historiques, culturelles et les problématiques propres à chaque pays.

C’est pourquoi VinBigdata a décidé de développer un modèle de langage de grande envergure en vietnamien, afin de garantir la sécurité des données, d’améliorer la précision, de réduire les coûts et de s’adapter au contexte local. L’équipe d’experts a conçu un modèle comportant des centaines de fois moins de paramètres que chatGPT, mais basé sur un volume important de données concernant la population vietnamienne.

Le modèle peut répondre avec une grande précision aux questions spécifiques au contexte local. Par exemple, interrogé sur une loi comportant deux infractions différentes, le modèle chatGPT fournit une réponse identique et un contenu général similaire. En revanche, le modèle d'IA utilisant des données vietnamiennes peut répondre avec une grande précision en se basant sur les lois, les décrets, les amendes, les sources d'information, etc.

Pour prouver cette précision, le Dr Dao Duc Minh a donné un exemple en interrogeant chatGPT et le modèle de langue vietnamienne développé par VinBigdata sur l'œuvre « La femme du mendiant » de la littérature vietnamienne ; le résultat du modèle de VinBigdata a donné une réponse complètement correcte, tandis que celle de ChatGPT était peu claire.

Le représentant de VinBigdata a également déclaré que la maîtrise de l'IA générée localement est importante car elle peut aider le gouvernement à maîtriser le contenu, à éviter la désinformation, à garantir la sécurité des données nationales et à faire rayonner la technologie vietnamienne dans le monde entier.

Des pays prêts à coopérer avec le Vietnam pour développer la technologie de l'IA . Les représentants du consulat ont déclaré que les pays étaient prêts à coopérer avec le Vietnam pour développer la technologie de l'intelligence artificielle (IA) et ont souligné la nécessité de développer l'IA de manière responsable.

Source