(CLO) Meta, la société mère de Facebook, a annoncé vendredi le lancement d'une série de nouveaux modèles d'IA, dont un « évaluateur auto-apprenant » capable de réduire l'intervention humaine dans le processus de développement de l'IA.
Cette annonce fait suite à la présentation de l'outil par Meta dans un article de recherche en août, décrivant comment il utilise une technique de « chaîne de pensée » similaire aux nouveaux modèles d'OpenAI pour émettre des jugements précis sur les réponses des modèles d'IA. Cette technique décompose les problèmes complexes en étapes logiques plus simples, contribuant ainsi à améliorer la précision dans des domaines comme les sciences , la programmation et les mathématiques.
Icône Meta AI. Photo : Reuters
Les chercheurs de Meta ont utilisé des données entièrement générées par l’IA pour former ce modèle de notation, éliminant ainsi complètement l’intervention humaine à ce stade.
La capacité d’utiliser l’IA pour évaluer l’IA elle-même montre le potentiel de développement d’agents d’IA autonomes capables d’apprendre de leurs propres erreurs, selon deux chercheurs de Meta.
De nombreux experts dans le domaine de l’IA envisagent ces agents numériques intelligents comme des assistants numériques capables d’effectuer une variété de tâches sans intervention humaine.
Les modèles auto-améliorés pourraient éliminer le recours au processus d'apprentissage par renforcement à partir du feedback humain, qui nécessite des experts hautement qualifiés pour étiqueter les données et vérifier l'exactitude de réponses mathématiques et écrites complexes. Ce processus est actuellement très coûteux et inefficace.
« Nous espérons qu’à mesure que l’IA deviendra de plus en plus supérieure aux humains, elle parviendra à mieux vérifier son propre travail, dépassant même les compétences humaines », a déclaré Jason Weston, l’un des chercheurs du projet.
« La capacité d’apprendre et de s’auto-évaluer est essentielle pour développer l’IA à des niveaux surhumains », a-t-il ajouté.
Outre Meta, d'autres entreprises comme Google et Anthropic ont également publié des recherches sur le concept de RLAIF, ou « apprentissage par renforcement à partir de l'IA de rétroaction ». Cependant, contrairement à Meta, ces entreprises publient rarement leurs modèles pour un usage public.
Cao Phong (selon Reuters)
Source : https://www.congluan.vn/meta-phat-hanh-mo-hinh-ai-co-the-tu-hoc-va-tu-phat-trien-post317675.html
Comment (0)