알리바바의 통이랩은 3월 11일 화요일에 오픈소스 R1-Omni를 출시했습니다. R1-Omni는 검증 가능한 보상을 통한 강화 학습(RLVR)을 사용하는 최초의 포괄적인 다중 모달 언어 모델로, AI의 추론 및 감정 분석 능력을 향상시킬 것으로 기대되는 기술입니다.
연구팀은 RLVR을 사용하여 오픈소스 HumanOmni 0.5B 모델을 최적화하여 추론, 감정 인식 정확도, 일반화라는 세 가지 핵심 지표를 크게 향상시켰다고 밝혔습니다. 보고서에 따르면, R1-Omni는 시각 및 청각 정보가 감정 인식을 어떻게 지원하는지 더 잘 이해하고, 각 감정을 평가하는 데 어떤 요소가 더 중요한 역할을 하는지 명확하게 파악할 수 있습니다.
테스트 영상 에서 R1-Omni는 영상을 통해 사람의 감정 상태를 파악하고, 등장인물의 옷차림과 주변 환경까지 묘사할 수 있었습니다. 이는 컴퓨터 비전 분야에서 큰 진전을 이룬 사례입니다.
AI 감정 인식 기술은 기술 산업의 중요한 트렌드로 자리 잡고 있습니다. 이 기술은 고객 지원 챗봇이나 테슬라 전기차 운전 시 운전자 피로 징후를 감지하는 모니터링 시스템과 같은 실용적인 분야에서 자주 활용됩니다.
알리바바는 R1-Omni 모델 출시로 AI 경쟁을 가속화하고 OpenAI의 입지를 위협하고 있습니다. OpenAI는 사용자 질문의 미묘한 신호를 인식하고 대응할 수 있는 GPT-4.5를 최대 월 200달러에 출시한 반면, 알리바바는 Hugging Face 플랫폼에서 R1-Omni를 완전히 무료로 제공합니다.
알리바바 CEO 우융밍에 따르면 R1-Omni는 현재 "행복"이나 "화남"과 같은 기본적인 감정만 인식하지만, 인공 일반 지능(AGI)이 회사의 최우선 목표이며, AI를 위한 감정 지능을 개발하는 것은 중요한 진전입니다.
댓글 (0)