アリババのTongyi Labは火曜日(3月11日)、検証可能な報酬による強化学習(RLVR)を使用した初の包括的なマルチモーダル言語モデルであるオープンソースのR1-Omniをリリースした。これはAIの推論能力と感情分析能力を向上させることが期待される技術である。
研究チームは、RLVRを用いてオープンソースのHumanOmni 0.5Bモデルを最適化し、推論、感情認識精度、汎化という3つの主要指標を大幅に向上させたと述べています。報告書によると、R1-Omniは視覚情報と聴覚情報が感情認識をどのようにサポートしているかをより深く理解し、各感情の評価においてどの要因がより重要な役割を果たすかを明確に特定できるとのことです。
テスト動画では、R1-Omniは動画を通して人物の感情状態を識別し、人物の服装や周囲の状況も描写することができました。これはコンピュータービジョン分野における大きな前進です。
AI感情認識技術は、テクノロジー業界において重要なトレンドになりつつあります。この技術は、カスタマーサポートのチャットボットや、テスラの電気自動車の運転中にドライバーの疲労の兆候を検知するモニタリングシステムなど、実用化に広く活用されています。
R1-Omniモデルのリリースにより、アリババはAI競争を加速させ、OpenAIの地位に挑戦しています。OpenAIは、ユーザーの質問に込められた微妙なシグナルを認識して応答できるGPT-4.5を月額最大200ドルでリリースしましたが、アリババはHugging Faceプラットフォーム上でR1-Omniを完全に無料で提供しています。
R1-Omniは現在、「幸せ」や「怒り」といった基本的な感情しか認識できないが、アリババのCEOである呉永明氏によると、同社の最大の目標は汎用人工知能(AGI)であり、AI向けの感情知能の開発は重要な前進だという。
コメント (0)