« La version vietnamienne de ChatGPT » et l'histoire du pionnier

Le produit a rapidement suscité un vif intérêt au sein de la communauté scientifique et technologique vietnamienne.

Choisir la voie difficile pour résoudre le problème vietnamien

Fin 2022, ChatGPT a créé la surprise, déclenchant une véritable course à l'intelligence artificielle entre les pays et les géants du secteur technologique. À cette époque, la communauté technologique vietnamienne aspirait également à développer des produits nationaux pour atteindre l'autosuffisance technologique et réduire sa dépendance aux produits internationaux. Cependant, toutes les entreprises n'ont pas la capacité et la détermination nécessaires pour concrétiser cette ambition, à l'instar de VinBigdata.

« L'IA générative est un problème complexe. Même les grandes entreprises comme OpenAI ou Google doivent investir énormément de ressources et de temps dans la recherche pour créer des produits comme ceux que nous connaissons. Ces produits sont très performants, mais en réalité, les scientifiques ne comprennent pas encore pleinement leur fonctionnement. Il est difficile de prédire les erreurs et leur nature. Développer un produit similaire à ChatGPT pour les Vietnamiens en moins d'un an représente un véritable défi. Mais nous avons choisi de prendre ce risque, car si une version vietnamienne de ChatGPT n'est pas créée par des Vietnamiens, qui le fera ? » a déclaré le professeur Vu Ha Van, directeur scientifique de VinBigdata.

En réalité, très peu d'entreprises choisissent de développer leurs propres modèles de langage à grande échelle. Par exemple, GPT-3 d'OpenAI compte 175 milliards de paramètres, a été entraîné sur un ensemble de données de 45 téraoctets et a coûté 4,6 millions de dollars. Selon les estimations, le développement de GPT-4 pourrait même atteindre 100 millions de dollars. « Avec de tels chiffres, il est très difficile de trouver une entreprise capable d'investir dans cette technologie », a déclaré le Dr Nguyen Kim Anh, directeur produit chez VinBigdata.

Pour permettre aux entreprises vietnamiennes d'accéder à l'intelligence artificielle de nouvelle génération à un coût et une infrastructure optimaux, VinBigdata a opté pour une approche radicalement différente : la création d'un modèle de langage ne comportant que 1,6 milliard de paramètres, mais offrant des performances équivalentes à celles de modèles de grande taille comptant des milliards de paramètres. « Les résultats démontrent qu'avec l'architecture développée par VinBigdata, il est tout à fait possible d'optimiser et d'accélérer le processus d'entraînement du modèle de langage, de réduire les coûts d'infrastructure (incluant les coûts d'entraînement et d'utilisation), tout en garantissant la qualité du modèle », a ajouté le Dr Nguyen Kim Anh.

Après avoir résolu le problème de la grande taille du modèle de langage, lors du processus de « conception » de ViGPT, après avoir étudié des modèles étrangers, l'équipe VinBigdata a également réalisé un autre défi : « l'illusion », provenant de la nature inhérente des modèles de probabilité statistique.

Par conséquent, les plus grands modèles de langage au monde sont souvent entraînés avec des données en anglais. De ce fait, ces modèles ne comprennent pas et ne réagissent pas correctement au contexte et à la culture vietnamiens. Cela engendre des dysfonctionnements qui amènent ces grands modèles à « fabriquer » des réponses incorrectes.

Pour trouver la solution optimale dans les plus brefs délais, l'équipe de traitement automatique du langage naturel (TALN) de VinBigdata est divisée en petits groupes, analysant et discutant différentes idées pour trouver la direction finale la plus appropriée.

« Finalement, nous avons décidé de développer une architecture différente de la plupart des grands modèles de langage actuels et de procéder à un entraînement sur un ensemble de données vietnamiennes affinées de 600 Go, afin de créer un « assistant virtuel intelligent » capable de comprendre et de donner des réponses en fonction du contexte des Vietnamiens », a ajouté le Dr Nguyen Kim Anh.

Aspiration à un écosystème technologique vietnamien

D'après les résultats de l'évaluation des compétences linguistiques en vietnamien (VMLU), ViGPT a obtenu un score moyen de 42,24 %, se classant deuxième derrière ChatGPT (48,54 %). Ce résultat permet à ViGPT de rechercher rapidement des informations et de répondre à des questions sur des sujets spécifiques concernant le Vietnam.

Outre les fonctionnalités de l'assistant virtuel, l'équipe de développement souhaite intégrer ViGPT aux produits du quotidien afin d'améliorer la vie des Vietnamiens. C'est ce qui motive l'équipe de VinBigdata à construire un écosystème de produits linguistiques et vocaux utilisant ViGPT : l'écosystème « Vi », qui comprend ViChat, ViVoice et l'assistant virtuel ViVi. Ces produits peuvent être utilisés dans de nombreux secteurs, de l'automobile à la banque-finance, en passant par l'assurance, les transports et bien d'autres.

« Lorsque nous travaillons avec la technologie, et notamment l’IA, nous ne cherchons pas seulement à maîtriser des systèmes intéressants, complexes et difficiles à appréhender. Nous voulons créer des produits concrets et très utiles, où l’IA est l’agent direct qui transforme des vies », a affirmé VinBigdata, directeur produit.

Le développement réussi de ViGPT n'est donc qu'une première étape vers l'utilisation de technologies et de données « purement vietnamiennes » au service de millions de Vietnamiens. Un représentant de VinBigdata a déclaré que cette entité ambitionne d'intégrer ViGPT à la plateforme d'intelligence artificielle multicognitive VinBase 2.0, afin de proposer des solutions performantes aux organisations et entreprises de toutes tailles et de tous secteurs.

Avant ViGPT, l'équipe d'experts et d'ingénieurs de VinBigdata dans le domaine des technologies de traitement du langage et de la parole s'est fait remarquer en lançant ViVi, le premier assistant virtuel vietnamien complet (appliqué et déployé sur les voitures électriques VinFast , les applications Vinhomes Resident et la plateforme de commerce électronique Vinhomes Online), tout en maîtrisant parfaitement les technologies les plus avancées au monde telles que la biométrie vocale ou le clonage vocal.

Toutes ces technologies sont développées à partir d'une base de données de 3 500 téraoctets, axée principalement sur des données spécifiques au Vietnam, collectées, analysées et enrichies par VinBigdata. L'objectif final est d'intégrer les technologies mondiales au quotidien vietnamien, en utilisant les systèmes de données et de connaissances vietnamiens.

ViGPT est la première version vietnamienne de ChatGPT destinée aux utilisateurs finaux. Elle repose sur le modèle linguistique vietnamien étendu (LLM) développé par VinBigdata. ViGPT possède des fonctionnalités exceptionnelles et est conçue pour répondre au mieux aux besoins des Vietnamiens, notamment en matière de création de contenu, de recherche d'informations et de réponses aux questions fréquentes avec des spécificités propres au vietnamien. Inscrivez-vous et découvrez ViGPT sur : vigpt.vinbigdata.com

Thanh Ha

Source