Le laboratoire Tongyi d'Alibaba a publié mardi 11 mars le R1-Omni open source, le premier modèle de langage multimodal complet qui utilise l'apprentissage par renforcement avec des récompenses vérifiables (RLVR), une technologie qui promet d'améliorer la capacité de l'IA à raisonner et à analyser les sentiments.
L'équipe a déclaré avoir utilisé RLVR pour optimiser le modèle open source HumanOmni 0.5B, améliorant ainsi significativement trois indicateurs clés : l'inférence, la précision de la reconnaissance des émotions et la généralisation. Selon le rapport, R1-Omni permet de mieux comprendre comment les informations visuelles et auditives favorisent la reconnaissance des émotions et d'identifier clairement les facteurs qui jouent un rôle plus important dans l'évaluation de chaque émotion.
Lors de tests vidéo , R1-Omni a pu identifier l'état émotionnel d'une personne, ainsi que décrire ses vêtements et son environnement. Cela marque une avancée majeure dans le domaine de la vision par ordinateur.
La technologie de reconnaissance des émotions par l'IA devient une tendance importante dans le secteur technologique. Elle est souvent utilisée dans des applications pratiques, comme les chatbots d'assistance client ou les systèmes de surveillance qui détectent les signes de fatigue au volant des voitures électriques Tesla.
Avec le lancement du modèle R1-Omni, Alibaba accélère la course à l'IA et défie OpenAI. Alors qu'OpenAI a lancé GPT-4.5, capable de reconnaître et de répondre à des signaux subtils dans les questions des utilisateurs, pour un prix pouvant atteindre 200 $/mois, Alibaba propose R1-Omni entièrement gratuitement sur la plateforme Hugging Face.
Bien que R1-Omni ne reconnaisse actuellement que les émotions de base comme « heureux » ou « en colère », selon le PDG d'Alibaba, Wu Yongming, l'intelligence artificielle générale (AGI) est l'objectif principal de l'entreprise, et le développement de l'intelligence émotionnelle pour l'IA est une étape importante en avant.
Comment (0)