Pho GPT, acronyme de Pho - Generative Pre-trained Transformer, est un vaste projet de modèle de langage dédié au vietnamien, mis en œuvre par l'équipe d'ingénierie de VinAI, membre de Vingroup Corporation.
« Rattraper son retard » sur la technologie mondiale
Pho GPT utilise un code source ouvert, contrairement aux logiciels propriétaires comme ChatGPT d'OpenAI. Cela signifie que le code source de Pho GPT est public et accessible, et que les utilisateurs peuvent contribuer à son développement via des applications personnalisées.
D'après la présentation de VinAI, Pho GPT possède 7,5 milliards de paramètres et repose sur la plateforme de décodage Transformer. Ce modèle est entraîné à partir de zéro, en utilisant les techniques les plus avancées, telles que le mécanisme d'attention Flash et l'extrapolation de la longueur du contexte AliBi.
Ces techniques permettent non seulement à Pho GPT de mieux comprendre le contexte, mais aussi d'améliorer la capacité de l'application à dialoguer et à interagir naturellement lors de son utilisation. Le modèle devient ainsi un outil polyvalent et multifonctionnel, capable de répondre aux divers besoins linguistiques des utilisateurs.
M. Bui Hai Hung, directeur général de VinAI. |
Évoquant l'importance du lancement de Pho GPT, M. Bui Hai Hung, directeur général de VinAI, a déclaré que l'objectif du projet est de développer des modèles similaires à ChatGPT pour la langue et la culture vietnamiennes. Pho GPT possède une capacité de compréhension et de reproduction de l'écriture vietnamienne supérieure aux technologies linguistiques de génération précédente. Ce modèle a été entraîné de A à Z avec un ensemble de données vietnamiennes, sans dépendre d'aucun autre modèle existant, garantissant ainsi la maîtrise d'une technologie de pointe pour le Vietnam.
Il convient de noter que, tandis que le monde entier s'enthousiasmait pour la naissance de Chat GPT, Pho GPT faisait son apparition au Vietnam un an plus tard. Selon M. Bui Hai Hung, VinAI est le pionnier en Asie du Sud-Est à lancer un modèle de langage de grande envergure avec un code source ouvert. Quelques semaines plus tard, un produit similaire était lancé à Singapour.
Élever l'IA vietnamienne
Les résultats de la comparaison de la version Pho GPT-7B5-Instruct avec le modèle propriétaire ChatGPT (GPT-3.5-turbo) et d'autres modèles open source montrent que Pho GPT se classe deuxième, juste après ChatGPT dans la plupart des catégories d'évaluation.
Pho GPT se distingue nettement des autres modèles linguistiques, notamment ChatGPT. Conçu pour comprendre et écrire en vietnamien de manière naturelle, il reflète le contexte, la grammaire, le vocabulaire et les expressions propres à la langue vietnamienne. Il permet d'interagir avec les utilisateurs sur des sujets liés à la culture, l'histoire, la géographie, la société, les loisirs, le sport , etc., du Vietnam.
De plus, Pho GPT est un logiciel libre et flexible. Les utilisateurs peuvent développer des applications personnalisées et uniques, notamment celles exigeant une sécurité élevée, sans dépendre de logiciels propriétaires.
Parallèlement, Pho GPT privilégie la haute performance et la réduction des coûts grâce à un entraînement utilisant les techniques d'optimisation les plus récentes, ce qui permet de réduire la taille de l'application et d'en accroître la vitesse. Pho GPT peut également s'exécuter sur une plateforme informatique moins gourmande en ressources, contribuant ainsi à réduire les coûts et à économiser les ressources.
Entraîné avec un entrepôt de données vietnamien de 41 Go, dont 1 Go de texte Wikipédia et une variante de 40 Go débarrassée des doublons issus de données d'actualités, et entraîné à utiliser la bibliothèque llm-foundry de Mosaicml llm, Pho GPT peut générer des fragments de texte à la demande des utilisateurs : articles, poèmes, chansons, essais, discours, introductions… Pho GPT peut également créer du contenu créatif et humoristique : nouvelles, commentaires, proverbes, messages, tweets, mèmes… Parallèlement, il dialogue avec les utilisateurs sur divers sujets : actualités, éducation, santé, voyages, cuisine, sports, divertissement… De plus, Pho GPT peut répondre aux questions des utilisateurs, leur fournir des informations, des conseils et une assistance.
De plus, Pho GPT peut traduire des textes ou des types de textes de nature différente, tels que des documents officiels, commerciaux, académiques, littéraires… du vietnamien vers d’autres langues et vice versa.
Une autre caractéristique remarquable est que Pho GPT analyse et traite les paragraphes de texte, notamment en les résumant, les classant, les étiquetant, en extrayant des informations, en détectant les émotions, en repérant les erreurs et en améliorant le style d'écriture...
L'équipe de développement de Pho GPT a déclaré qu'elle continuerait à améliorer le modèle et à étendre le projet à d'autres langues, notamment en Asie du Sud-Est.
« La création de Pho GPT marque une première pour le Vietnam, qui a ainsi l'opportunité de rattraper son retard sur le reste du monde dans ce domaine technologique de pointe et de disposer d'un modèle de langage complet, à code source ouvert, spécifiquement conçu pour les Vietnamiens, optimisé pour la langue vietnamienne et indépendant du reste du monde. C'est une grande fierté pour Vin AI en particulier et pour le peuple vietnamien en général », a ajouté le représentant de Vin AI.
Commentant le potentiel et les perspectives de développement de Pho GPT dans les années à venir, M. Tran Duy Dong, vice-ministre du Plan et de l'Investissement, a souligné : « L'IA est l'un des domaines dans lesquels le Vietnam possède un fort potentiel de développement et peut rapidement rattraper son retard au niveau mondial. Le ministère soutiendra et accompagnera toujours la communauté de l'IA en particulier, et la communauté scientifique et technologique en général, afin de développer un écosystème d'innovation complet et dynamique, contribuant ainsi au développement global du pays. »
Source






Comment (0)