VinBigdata a annoncé le 21 août le développement réussi d'un modèle de langage vietnamien à grande échelle, jetant ainsi les bases de la maîtrise des technologies génératives d'IA.
Les modèles de langage à grande échelle (LLM) sont des modèles entraînés à l'aide de techniques d'apprentissage profond sur d'immenses ensembles de données textuelles ou visuelles. Ces modèles sont capables de comprendre des connaissances, de générer du texte de manière autonome et d'effectuer diverses tâches de traitement automatique du langage naturel. Ils sont considérés comme essentiels au développement de l'intelligence artificielle générative, capable de créer de nouveaux contenus et idées sous différentes formes (texte, images, audio, etc.).
Grâce au développement réussi d'un modèle de langue vietnamienne à grande échelle, VinBigdata intégrera cette technologie pour faire de VinBase (une plateforme d'intelligence artificielle multicognitive complète) la plateforme de génération d'IA leader au Vietnam, tout en fournissant des solutions développées sur cette technologie telles que des chatbots d'IA générative, des callbots et l'assistant virtuel ViVi de nouvelle génération... Cette technologie améliore le naturel de la communication machine et aide les utilisateurs à rechercher et à synthétiser des informations plus rapidement et plus facilement qu'auparavant.
Professeur Vu Ha Van - Directeur scientifique de la société VinBigdata. Photo : VinBigdata
Le professeur Vu Ha Van, directeur scientifique de VinBigdata, a indiqué que plusieurs grandes entreprises internationales ont développé et commercialisé avec succès des produits basés sur des modèles de langage complexes, à l'instar d'OpenAI avec ChatGPT et de Google avec Bard. Au Vietnam, VinBigdata est développé par Vingroup afin de créer un modèle de langage complexe vietnamien. Selon le professeur Van, ce modèle vise à résoudre trois problèmes fondamentaux : améliorer la précision, réduire les coûts d'infrastructure et garantir la sécurité.
« Au lieu d'avoir besoin d'environ 175 milliards de paramètres comme ChatGPT, VinBigdata peut créer un modèle de langage à grande échelle avec quelques milliards de paramètres tout en étant capable de générer des textes très authentiques, en se concentrant sur les données et les connaissances vietnamiennes », a déclaré le responsable de l'unité.
La maîtrise des technologies, le développement à partir de zéro et la création d'un modèle linguistique vietnamien à grande échelle sont considérés comme des étapes cruciales pour VinBigdata dans l'intégration de l'intelligence artificielle à son écosystème de produits et services. Actuellement, l'entreprise applique cette nouvelle technologie à sa gamme de produits VinBase KB (portail de base de connaissances VinBase). Ce produit est capable d'extraire des informations et de générer automatiquement des réponses à partir des données collectées dans sa base de connaissances.
Des représentants de VinBigdata ont partagé cette information lors de l'événement de lancement de la génération d'IA. Photo : VinBigdata
Vingroup prévoit de lancer deux gammes de produits principales en décembre : VinBase 2.0 et l’application ViGPT. VinBase 2.0 est une plateforme d’IA qui génère des réponses multicognitives et propose des solutions aux entreprises et aux administrations . L’application ViGPT, présentée par l’entreprise comme « la version vietnamienne de ChatGPT », sera quant à elle accessible à la communauté pour des tests. Avec ViGPT, les utilisateurs pourront poser des questions et obtenir des réponses sur des informations spécifiques au Vietnam (réglementations, documents juridiques) ou sur des informations locales (histoire, littérature, sites touristiques, spécialités culinaires).
La société VinBigdata Joint Stock Company dispose d'un système de base de données d'une capacité de 3 500 téraoctets. Ce système contient des centaines de milliers d'heures de données vocales, d'images et d'informations nettoyées, traitées, classifiées et utilisées pour l'entraînement de l'IA et l'infrastructure de R&D. Cette infrastructure comprend des dizaines de clusters de serveurs Nvidia DGX A100. L'entreprise s'appuie également sur une équipe de professeurs, de scientifiques et d'experts en technologies vietnamiens du monde entier.
Hoai Phuong
Lien source








