OpenAI n'a pas révélé grand-chose sur la manière dont ChatGPT-4 a été entraîné. Cependant, les grands modèles linguistiques (LLM) sont généralement entraînés à partir de textes extraits d'Internet, où l'anglais est la langue véhiculaire. Environ 93 % des données d'entraînement de ChatGPT-3 étaient en anglais.
Dans Common Crawl, l'un des ensembles de données sur lesquels le modèle d'IA a été entraîné, l'anglais représente 47 % du corpus, les autres langues européennes 38 % supplémentaires. En revanche, le chinois et le japonais combinés ne représentent que 9 %.
Ce problème ne se limite pas à ChatGPT, comme l'ont constaté Nathaniel Robinson, chercheur à l'Université Johns Hopkins, et ses collègues. Tous les LLM ont obtenu de meilleurs résultats sur les langages à « ressources élevées », où les données d'apprentissage étaient abondantes, que sur les langages à « ressources faibles », où elles étaient rares.
C'est un problème pour ceux qui espèrent introduire l'IA dans les pays pauvres afin d'améliorer tous les aspects de la vie, de l'éducation aux soins de santé. C'est pourquoi des chercheurs du monde entier s'efforcent de rendre l'IA plus multilingue.
En septembre dernier, le gouvernement indien a lancé un chatbot qui aide les agriculteurs à se tenir au courant des informations utiles du gouvernement.
Shankar Maruwada, de la Fondation EkStep, l'association à but non lucratif qui a contribué à la création du chatbot, explique que celui-ci combine deux types de modèles linguistiques, permettant aux utilisateurs de soumettre des requêtes dans leur langue maternelle. Ces requêtes sont transmises à un logiciel de traduction automatique d'un centre de recherche indien, qui les traduit en anglais avant de transmettre la réponse au LLM, qui la traite. Enfin, la réponse est retraduite dans la langue maternelle de l'utilisateur.
Ce processus peut fonctionner, mais traduire les requêtes dans le langage « préféré » du LLM est une solution de contournement maladroite. Le langage est le reflet de la culture et de la vision du monde . Une étude de 2022 de Rebecca Johnson, chercheuse à l'Université de Sydney, a révélé que ChatGPT-3 produisait des réponses sur des sujets tels que le contrôle des armes à feu et la politique des réfugiés, comparables aux valeurs américaines exprimées dans le World Values Survey.
Par conséquent, de nombreux chercheurs tentent de rendre les LLM accessibles dans des langues moins répandues. Techniquement, une approche consiste à adapter le tokenizer à la langue. Une startup indienne, Sarvam AI, a développé un tokenizer optimisé pour l'hindi, ou modèle OpenHathi – un LLM optimisé pour la langue devanagari (indienne), qui permet de réduire considérablement le coût des réponses aux questions.
Une autre solution consiste à améliorer les ensembles de données sur lesquels le LLM est entraîné. En novembre, une équipe de chercheurs de l'Université Mohamed bin Zayed d'Abou Dhabi a publié la dernière version de son modèle arabophone, baptisée « Jais ». Ce modèle comporte six fois moins de paramètres que ChatGPT-3, mais ses performances sont comparables à celles de l'arabe.
Timothy Baldwin, président de l'Université Mohamed bin Zayed, a souligné que, bien que son équipe ait numérisé une grande quantité de textes arabes, une partie du texte anglais était encore incluse dans le modèle. Certains concepts sont communs à toutes les langues et peuvent être appris dans n'importe quelle langue.
La troisième approche consiste à affiner les modèles après leur apprentissage. Jais et OpenHathi utilisent tous deux plusieurs paires questions-réponses générées par des humains. Il en va de même pour les chatbots occidentaux, afin d'éviter la désinformation.
Ernie Bot, titulaire d'un master en droit de Baidu, une grande entreprise technologique chinoise, a été optimisé pour limiter les propos susceptibles d'offenser le gouvernement. Les modèles peuvent également apprendre des retours humains, les utilisateurs notant les réponses du master. Mais cela est difficile à mettre en œuvre pour de nombreuses langues dans les régions moins développées, car il est nécessaire de recruter des personnes qualifiées pour analyser les réponses de la machine.
(Selon l'économiste)
Source
Comment (0)