Le produit a rapidement créé le buzz dans la communauté scientifique et technologique vietnamienne.
Choisissez la voie difficile pour résoudre les problèmes vietnamiens
Fin 2022, ChatGPT créera un « big bang », ouvrant une course à la conquête de l'IA artificielle entre les pays et les géants du domaine technologique. À cette époque, la communauté technologique vietnamienne était également désireuse de développer des produits vietnamiens pour devenir technologiquement indépendants et réduire leur dépendance vis-à-vis des produits internationaux. Cependant, toutes les unités n’ont pas la capacité et la détermination de réaliser ce souhait comme VinBigdata.
L'IA générative est un problème complexe. Les grandes entreprises comme OpenAI ou Google doivent également consacrer beaucoup de temps et de ressources à la recherche pour créer des produits comme ceux que nous voyons. Ces produits sont très performants, mais les scientifiques ne comprennent pas encore pleinement leur fonctionnement. Lorsqu'ils comportent des erreurs, et quelles seront-elles, peu de gens peuvent les prévoir. Développer un produit similaire à ChatGPT pour les Vietnamiens, en moins d'un an, représente de nombreux défis. Mais nous avons choisi de prendre des risques, car si une version vietnamienne de ChatGPT n'est pas créée par des Vietnamiens, qui la créera ? - Le professeur Vu Ha Van, directeur scientifique de VinBigdata, a partagé.
En fait, très peu d’entreprises choisissent de construire leur propre modèle de langage à grande échelle à partir de zéro. Comme le GPT 3 d'OpenAI, il comporte 175 milliards de paramètres et a été formé sur un ensemble de données de 45 téraoctets et a coûté 4,6 millions de dollars. Selon les calculs, le montant d’argent pour développer GPT 4 pourrait même atteindre 100 millions de dollars. « Avec des chiffres aussi importants, il est difficile de trouver une entreprise qui puisse se permettre d'investir dans cette technologie », a déclaré le Dr Nguyen Kim Anh, directeur produit de VinBigdata.
Afin que les entreprises vietnamiennes puissent accéder à une technologie d'IA de nouvelle génération, avec des coûts et une infrastructure optimaux, VinBigdata a choisi une direction complètement différente, qui consiste à créer un modèle de langage avec seulement 1,6 milliard de paramètres, mais avec des capacités équivalentes à de grands modèles de langage avec des milliards de paramètres. « Les résultats montrent qu'avec l'architecture développée par VinBigdata elle-même, il est tout à fait possible d'optimiser et d'accélérer le processus de formation du modèle de langage, de réduire les coûts d'infrastructure (y compris les coûts de formation et les coûts d'utilisation), tout en garantissant la qualité du modèle », a ajouté le Dr Nguyen Kim Anh.
Après avoir résolu le problème de la grande taille du modèle de langage, lors du processus de « conception » de ViGPT, après avoir étudié des modèles étrangers, l'équipe VinBigdata a également réalisé un autre défi : « l'illusion », provenant de la nature inhérente des modèles de probabilité statistique.
En conséquence, les plus grands modèles linguistiques du monde sont souvent formés à l’aide de sources de données en anglais. Par conséquent, ce modèle ne comprend pas vraiment et ne répond pas correctement au contexte et à la culture du peuple vietnamien. Cela conduit à une hallucination qui amène le grand modèle linguistique à « fabriquer » des réponses incorrectes.
Pour trouver la solution optimale dans les plus brefs délais, l'équipe de traitement du langage naturel (NLP) de VinBigdata a été divisée en petits groupes, analysant et discutant de différentes idées pour trouver la direction finale la plus appropriée.
« En fin de compte, nous avons décidé de développer une architecture différente de la plupart des grands modèles linguistiques actuels et de mener une formation sur un ensemble de données vietnamiennes affinées de 600 Go, pour créer un « assistant virtuel intelligent » capable de comprendre et de donner des réponses en fonction du contexte des Vietnamiens », a ajouté le Dr Nguyen Kim Anh.
Aspiration à un écosystème technologique vietnamien
Selon les résultats de l'évaluation des normes d'évaluation des compétences en langue vietnamienne (VMLU), ViGPT a obtenu un score moyen de 42,24 %, juste derrière ChatGPT (48,54 %). Ce résultat permet à ViGPT de rechercher rapidement des informations et de répondre à des questions sur des sujets spécifiques propres au Vietnam.
Outre les capacités d'un assistant virtuel, l'équipe de développement souhaite intégrer ViGPT dans des produits familiers et utilisés quotidiennement, afin de créer des changements dans la vie des Vietnamiens. C'est la motivation qui pousse l'équipe VinBigdata à construire un écosystème de produits linguistiques et vocaux appliquant ViGPT - l'écosystème « Vi » comprenant : ViChat, ViVoice, ViVi Virtual Assistant. Ces produits peuvent être utilisés dans de nombreux secteurs, de l'industrie automobile, de la banque, de la finance, des assurances aux transports et bien d'autres domaines.
« Lorsque nous travaillons avec la technologie, et notamment l'IA, nous ne cherchons pas seulement à maîtriser des systèmes complexes et complexes, difficiles à visualiser. Nous souhaitons créer des produits concrets et hautement applicables, où l'IA est l'agent direct qui crée des changements dans la vie », a affirmé le directeur produit de VinBigdata.
Par conséquent, le développement réussi de ViGPT n’est que la première étape du voyage visant à mettre la technologie et les données « purement vietnamiennes » au service de la vie de millions de Vietnamiens. Le représentant de VinBigdata a déclaré que cette unité vise à intégrer ViGPT dans la plate-forme d'intelligence artificielle multicognitive VinBase 2.0, afin de fournir des solutions exceptionnelles aux systèmes organisationnels et aux entreprises de différentes tailles et industries.
Avant ViGPT, l'équipe d'experts et d'ingénieurs dans le domaine des technologies de traitement du langage et de la parole VinBigdata a fait sa marque en lançant ViVi - le premier assistant virtuel vietnamien complet (appliqué et déployé sur les voitures électriques VinFast, les applications Vinhomes Resident et la plateforme de commerce électronique Vinhomes Online), maîtrisant en même temps complètement les technologies les plus avancées au monde telles que la biométrie vocale ou le clonage vocal.
Toutes ces technologies sont développées sur la base d’une base de données de 3 500 téraoctets, se concentrant principalement sur les données spécifiques au Vietnam, collectées, analysées et affinées par VinBigdata. L’objectif ultime est d’apporter la technologie mondiale à la vie vietnamienne, en utilisant les données et les systèmes de connaissances vietnamiens.
ViGPT est la première « version vietnamienne de ChatGPT » pour les utilisateurs finaux construite sur le grand modèle de langage vietnamien (LLM) développé par VinBigdata. ViGPT possède des fonctionnalités exceptionnelles et est conçu pour répondre au mieux aux besoins des utilisateurs vietnamiens tels que la création de contenu, la recherche d'informations et la réponse aux questions courantes typiques du Vietnam. Inscrivez-vous et découvrez ViGPT sur : vigpt.vinbigdata.com |
Thanh Ha
Source
Comment (0)