Во вторник (11 марта) лаборатория Tongyi компании Alibaba выпустила модель R1-Omni с открытым исходным кодом. Это считается первой комплексной мультимодальной языковой моделью, применяющей обучение с подкреплением и проверяемыми вознаграждениями (RLVR) — технологию, которая обещает улучшить способность ИИ рассуждать и анализировать эмоции.
Команда разработчиков заявила, что использовала RLVR для оптимизации модели HumanOmni 0.5B с открытым исходным кодом, значительно улучшив три важных фактора, включая способность делать выводы, точность распознавания эмоций и способность к обобщению. Сообщается, что R1-Omni смог лучше понять, как визуальная и слуховая информация помогает распознавать эмоции, а также определить, какие факторы играют более важную роль в оценке каждой эмоции.
В тестовых видеороликах R1-Omni смог определить эмоциональное состояние человека по видео, а также описать одежду персонажа и окружающую обстановку. Это знаменует собой важный шаг вперед в области компьютерного зрения.
Технология распознавания эмоций на основе искусственного интеллекта постепенно становится важной тенденцией в технологической отрасли. Эту технологию часто можно увидеть в реальных приложениях, таких как чат-боты поддержки клиентов или системы мониторинга, которые обнаруживают признаки усталости водителя при управлении электромобилями Tesla.
С запуском модели R1-Omni Alibaba ускоряет темпы гонки искусственного интеллекта и бросает вызов позициям OpenAI. В то время как OpenAI запустила GPT-4.5, способную распознавать и реагировать на едва заметные сигналы в вопросах пользователей, по цене до 200 долларов в месяц, Alibaba предлагает R1-Omni совершенно бесплатно на платформе Hugging Face.
По словам генерального директора Alibaba У Юнмина, хотя R1-Omni в настоящее время распознает только базовые эмоции, такие как «счастье» или «гнев», основной целью компании является общий искусственный интеллект (AGI), а разработка эмоционального интеллекта для ИИ — важный шаг вперед.
Комментарий (0)