알리바바의 통이랩은 화요일(3월 11일)에 R1-Omni 모델을 오픈 소스로 공개했습니다. 이는 검증 가능한 보상을 통한 강화 학습(RLVR)을 적용한 최초의 포괄적인 다중 모드 언어 모델로 간주됩니다. RLVR은 AI의 추론 및 감정 분석 능력을 향상시킬 것을 약속하는 기술입니다.
개발팀은 RLVR을 사용하여 오픈 소스 HumanOmni 0.5B 모델을 최적화했으며, 추론 능력, 감정 인식 정확도, 일반화 능력 등 세 가지 중요 요소를 크게 개선했다고 밝혔습니다. R1-Omni는 시각적, 청각적 정보가 감정 인식에 어떻게 도움이 되는지 더 잘 이해하고, 각 감정을 평가하는 데 어떤 요소가 더 중요한 역할을 하는지 식별할 수 있다고 합니다.
테스트 영상 에서 R1-Omni는 영상을 통해 사람의 감정 상태를 식별할 수 있었을 뿐만 아니라, 캐릭터의 옷차림과 주변 환경도 묘사할 수 있었습니다. 이는 컴퓨터 비전 분야에서 큰 진전을 의미합니다.
AI 감정 인식 기술은 점차 기술 산업의 중요한 트렌드로 자리 잡고 있습니다. 이 기술은 고객 지원 챗봇이나 테슬라 전기 자동차를 운전할 때 운전자 피로 징후를 감지하는 모니터링 시스템 등 실제 적용 분야에서 자주 볼 수 있습니다.
알리바바는 R1-Omni 모델을 출시하면서 AI 경쟁에서 속도를 높이고 OpenAI의 지위에 도전하고 있습니다. OpenAI는 사용자 질문의 미묘한 신호를 인식하고 대응할 수 있는 GPT-4.5를 최대 월 200달러에 출시한 반면, Alibaba는 Hugging Face 플랫폼에서 R1-Omni를 완전히 무료로 제공합니다.
알리바바 CEO 우융밍에 따르면 R1-Omni는 현재 "행복"이나 "화남"과 같은 기본적인 감정만 인식하지만, 인공 일반 지능(AGI)이 회사의 최우선 목표이며, AI를 위한 감정 지능을 개발하는 것은 중요한 진전입니다.
댓글 (0)