Le modèle R1-Omni d'Alibaba peut déduire l'état émotionnel d'une personne dans une vidéo . Photo : Xpert.Digital . |
Selon Bloomberg , le laboratoire Tongyi d'Alibaba a publié le modèle R1-Omni en open source le 11 mars.
La caractéristique la plus remarquable de ce modèle est qu’il peut déduire l’état émotionnel d’une personne dans une vidéo, tout en décrivant également les vêtements et l’environnement.
Il s'agit d'une avancée majeure dans le domaine de la vision par ordinateur et d'une version améliorée du précédent modèle open source HumanOmni, développé par Jiaxing Zhao, chercheur principal chez Alibaba. Plus précisément, Alibaba a publié R1-Omni en téléchargement gratuit sur la plateforme Hugging Face.
Le rapport de recherche montre que R1-Omni peut mieux comprendre comment les informations visuelles et auditives favorisent la reconnaissance des émotions. De plus, pour améliorer la reconnaissance des émotions dans les modalités visuelles et auditives, le modèle optimise ses systèmes d'IA grâce à des algorithmes d'apprentissage par renforcement.
L'apprentissage par renforcement est un type de processus d'apprentissage automatique qui se concentre sur la prise de décision par des agents automatisés, notamment des logiciels d'IA avancés, des robots et des voitures autonomes.
Ces agents automatisés apprennent à effectuer une tâche par essais et erreurs, sans intervention humaine. Cette technique est un élément important du développement de modèles d'IA, car elle permet de résoudre des problèmes de prise de décision séquentielle dans un environnement incertain.
Les résultats de l’étude montrent que le modèle R1-Omni possède des capacités de raisonnement, de perspicacité et de généralisation plus fortes que les autres modèles.
Source : https://znews.vn/ai-trung-quoc-doc-duoc-cam-xuc-con-nguoi-post1537948.html
Comment (0)