Во вторник (11 марта) лаборатория Tongyi компании Alibaba выпустила R1-Omni с открытым исходным кодом — первую комплексную многомодальную языковую модель, использующую обучение с подкреплением и проверяемыми вознаграждениями (RLVR) — технологию, которая обещает улучшить способность ИИ рассуждать и анализировать настроения.
Команда заявила, что использовала RLVR для оптимизации модели HumanOmni 0.5B с открытым исходным кодом, значительно улучшив три ключевых показателя: вывод, точность распознавания эмоций и обобщение. Согласно отчёту, R1-Omni позволяет лучше понимать, как визуальная и слуховая информация способствует распознаванию эмоций, и чётко определять, какие факторы играют наиболее важную роль в оценке каждой эмоции.
В тестовых видеороликах R1-Omni смог определить эмоциональное состояние человека по видео, а также описать его одежду и окружение. Это значительный шаг вперёд в области компьютерного зрения.
Технология распознавания эмоций на основе искусственного интеллекта становится важным трендом в технологической индустрии. Эта технология часто применяется на практике, например, в чат-ботах службы поддержки клиентов или системах мониторинга, выявляющих признаки усталости водителя электромобилей Tesla.
С запуском модели R1-Omni Alibaba ускоряет гонку ИИ и бросает вызов OpenAI. В то время как OpenAI запустила GPT-4.5, способную распознавать едва заметные сигналы в вопросах пользователей и реагировать на них, по цене до 200 долларов в месяц, Alibaba предлагает R1-Omni совершенно бесплатно на платформе Hugging Face.
По словам генерального директора Alibaba У Юнмина, хотя R1-Omni в настоящее время распознает только базовые эмоции, такие как «счастье» или «гнев», основной целью компании является общий искусственный интеллект (AGI), а разработка эмоционального интеллекта для ИИ — важный шаг вперед.
Комментарий (0)