El Laboratorio Tongyi de Alibaba lanzó el martes (11 de marzo) el R1-Omni de código abierto, el primer modelo de lenguaje multimodal integral que utiliza aprendizaje de refuerzo con recompensas verificables (RLVR), una tecnología que promete mejorar la capacidad de la IA para razonar y analizar sentimientos.
El equipo afirmó haber utilizado RLVR para optimizar el modelo de código abierto HumanOmni 0.5B, mejorando significativamente tres métricas clave: inferencia, precisión en el reconocimiento de emociones y generalización. Según el informe, R1-Omni puede comprender mejor cómo la información visual y auditiva facilita el reconocimiento de emociones e identificar con claridad qué factores desempeñan un papel más importante en la evaluación de cada emoción.
En videos de prueba, R1-Omni logró identificar el estado emocional de una persona a través del video, así como describir su vestimenta y entorno. Esto representa un gran avance en el campo de la visión artificial.
La tecnología de reconocimiento de emociones con IA se está convirtiendo en una tendencia importante en la industria tecnológica. Esta tecnología se utiliza a menudo en aplicaciones prácticas, como chatbots de atención al cliente o sistemas de monitorización que detectan signos de fatiga al volante de coches eléctricos Tesla.
Con el lanzamiento del modelo R1-Omni, Alibaba impulsa la carrera de la IA y desafía la posición de OpenAI. Mientras que OpenAI lanzó GPT-4.5, que puede reconocer y responder a señales sutiles en las preguntas de los usuarios, por un precio de hasta $200 al mes, Alibaba ofrece R1-Omni completamente gratis en la plataforma Hugging Face.
Aunque actualmente R1-Omni solo reconoce emociones básicas como "feliz" o "enojado", según el CEO de Alibaba, Wu Yongming, la inteligencia artificial general (AGI) es el principal objetivo de la empresa, y desarrollar inteligencia emocional para IA es un importante paso adelante.
Kommentar (0)