Le produit a rapidement créé le buzz dans la communauté scientifique et technologique vietnamienne.
Choisissez la voie difficile pour résoudre les problèmes vietnamiens
Fin 2022, ChatGPT a créé un véritable boom, ouvrant la voie à une course à la conquête de l'IA artificielle entre les pays et les géants du secteur technologique. À cette époque, la communauté technologique vietnamienne souhaitait également développer des produits vietnamiens pour devenir autonomes sur le plan technologique et réduire ainsi sa dépendance aux produits internationaux. Cependant, toutes les entreprises n'ont pas la capacité et la détermination de concrétiser ce souhait comme VinBigdata.
L'IA générative est un défi complexe. Les grandes entreprises comme OpenAI ou Google doivent également consacrer beaucoup de temps et de ressources à la recherche pour créer des produits comme ceux que nous voyons. Ces produits sont excellents, mais les scientifiques ne comprennent pas encore pleinement leur fonctionnement. Peu de gens peuvent prédire les erreurs qu'ils pourraient comporter. Développer un produit similaire à ChatGPT pour les Vietnamiens en moins d'un an représente de nombreux défis. Mais nous avons choisi de prendre des risques, car si une version vietnamienne de ChatGPT n'est pas créée par des Vietnamiens, qui la créera ? – a déclaré le professeur Vu Ha Van, directeur scientifique de VinBigdata.
En réalité, rares sont les entreprises qui choisissent de créer leurs propres modèles de langage volumineux de A à Z. Par exemple, GPT 3 d'OpenAI compte 175 milliards de paramètres et a été entraîné sur un jeu de données de 45 téraoctets, pour un coût de 4,6 millions de dollars. Selon les calculs, le coût de développement de GPT 4 pourrait même atteindre 100 millions de dollars. « Face à des volumes aussi importants, il est très difficile de trouver une entreprise capable d'investir dans cette technologie », a déclaré le Dr Nguyen Kim Anh, directeur produit de VinBigdata.
Afin que les entreprises vietnamiennes puissent accéder à une technologie d'IA de nouvelle génération, avec des coûts et une infrastructure optimaux, VinBigdata a choisi une approche radicalement différente : créer un modèle de langage avec seulement 1,6 milliard de paramètres, mais avec des capacités équivalentes à celles de modèles de langage de grande taille, comptant des milliards de paramètres. « Les résultats montrent qu'avec l'architecture développée par VinBigdata, il est tout à fait possible d'optimiser et d'accélérer le processus de formation du modèle de langage, de réduire les coûts d'infrastructure (y compris les coûts de formation et d'utilisation), tout en garantissant la qualité du modèle », a ajouté le Dr Nguyen Kim Anh.
Après avoir résolu le problème de la grande taille du modèle de langage, lors du processus de « conception » de ViGPT, après avoir étudié des modèles étrangers, l'équipe VinBigdata a également réalisé un autre défi : « l'illusion », provenant de la nature inhérente des modèles de probabilité statistique.
Par conséquent, les plus grands modèles linguistiques du monde sont souvent entraînés avec des sources de données en anglais. Par conséquent, ce modèle ne comprend pas et ne répond pas correctement au contexte et à la culture du peuple vietnamien. Cela conduit à une hallucination qui amène le grand modèle linguistique à « fabriquer » des réponses incorrectes.
Pour trouver la solution optimale dans les plus brefs délais, l'équipe de traitement du langage naturel (NLP) de VinBigdata a été divisée en petits groupes, analysant et discutant de différentes idées pour trouver la direction finale la plus appropriée.
« Finalement, nous avons décidé de développer une architecture différente de la plupart des grands modèles linguistiques actuels et de mener une formation sur un ensemble de données vietnamiennes affinées de 600 Go, pour créer un « assistant virtuel intelligent » capable de comprendre et de donner des réponses en fonction du contexte des Vietnamiens », a ajouté le Dr Nguyen Kim Anh.
Aspiration à un écosystème technologique vietnamien
Selon les résultats de l'évaluation des normes d'évaluation des compétences en langue vietnamienne (VMLU), ViGPT a obtenu un score moyen de 42,24 %, juste derrière ChatGPT (48,54 %). Ce résultat permet à ViGPT de rechercher rapidement des informations et de répondre à des questions sur des sujets spécifiques au Vietnam.
Outre les fonctionnalités de l'assistant virtuel, l'équipe de développement souhaite intégrer ViGPT à des produits courants et familiers afin de changer la vie des Vietnamiens. C'est la motivation qui a poussé l'équipe de VinBigdata à créer un écosystème de produits vocaux et linguistiques utilisant ViGPT. L'écosystème « Vi » comprend : ViChat, ViVoice et l'assistant virtuel ViVi. Ces produits peuvent être utilisés dans de nombreux secteurs, de l'automobile à la banque, la finance, l'assurance, les transports et bien d'autres.
« Lorsque nous travaillons avec la technologie, et notamment l'IA, nous ne cherchons pas seulement à maîtriser des systèmes complexes et complexes, difficiles à visualiser. Nous souhaitons créer des produits concrets et hautement applicables, où l'IA est l'agent direct qui crée des changements dans la vie », a affirmé le directeur produit de VinBigdata.
Le développement réussi de ViGPT n'est donc qu'une première étape vers l'intégration de technologies et de données « purement vietnamiennes » au service de millions de Vietnamiens. Un représentant de VinBigdata a déclaré que cette unité vise à intégrer ViGPT à la plateforme d'intelligence artificielle multicognitive VinBase 2.0, afin de fournir des solutions performantes aux organisations et entreprises de toutes tailles et de tous secteurs.
Avant ViGPT, l'équipe d'experts et d'ingénieurs dans le domaine des technologies de traitement du langage et de la parole VinBigdata a fait sa marque en lançant ViVi - le premier assistant virtuel vietnamien complet (appliqué et déployé sur les voitures électriques VinFast , les applications Vinhomes Resident et la plateforme de commerce électronique Vinhomes Online), maîtrisant en même temps complètement les technologies les plus avancées au monde telles que la biométrie vocale ou le clonage vocal.
Toutes ces technologies sont développées à partir d'une base de données de 3 500 téraoctets, principalement axée sur les données vietnamiennes, collectées, analysées et affinées par VinBigdata. L'objectif ultime est d'intégrer les technologies mondiales au quotidien des Vietnamiens, grâce aux données et aux systèmes de connaissances vietnamiens.
ViGPT est la première version vietnamienne de ChatGPT destinée aux utilisateurs finaux, basée sur le modèle de langage large vietnamien (LLM) développé par VinBigdata. ViGPT offre des fonctionnalités exceptionnelles et est conçu pour répondre au mieux aux besoins des Vietnamiens, tels que la création de contenu, la recherche d'informations et la réponse aux questions courantes typiques du Vietnam. Inscrivez-vous et découvrez ViGPT sur : vigpt.vinbigdata.com |
Thanh Ha
Source
Comment (0)