Alibabas Tongyi Lab hat am Dienstag (11. März) das Open Source-Modell R1-Omni veröffentlicht, das erste umfassende multimodale Sprachmodell, das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verwendet, eine Technologie, die verspricht, die Fähigkeit der KI zum Denken und Analysieren von Stimmungen zu verbessern.
Das Team gab an, RLVR zur Optimierung des Open-Source-Modells HumanOmni 0.5B eingesetzt zu haben. Dadurch konnten drei Schlüsselmetriken deutlich verbessert werden: Inferenz, Genauigkeit der Emotionserkennung und Generalisierung. Laut Bericht kann R1-Omni besser verstehen, wie visuelle und auditive Informationen die Emotionserkennung unterstützen, und klar identifizieren, welche Faktoren bei der Beurteilung jeder Emotion eine wichtigere Rolle spielen.
In Testvideos konnte R1-Omni den emotionalen Zustand einer Person anhand des Videos erkennen und deren Kleidung und Umgebung beschreiben. Dies stellt einen großen Fortschritt im Bereich der Computervision dar.
Die KI-Technologie zur Emotionserkennung entwickelt sich zu einem wichtigen Trend in der Technologiebranche. Diese Technologie findet häufig Anwendung in praktischen Anwendungen, beispielsweise in Chatbots für den Kundensupport oder in Überwachungssystemen, die Anzeichen von Müdigkeit beim Fahren von Tesla-Elektroautos erkennen.
Mit der Einführung des R1-Omni-Modells beschleunigt Alibaba den KI-Wettlauf und fordert OpenAI heraus. Während OpenAI GPT-4.5 eingeführt hat, das subtile Signale in Benutzerfragen erkennen und darauf reagieren kann, und das für bis zu 200 US-Dollar pro Monat erhältlich ist, bietet Alibaba R1-Omni auf der Hugging Face-Plattform völlig kostenlos an.
Obwohl R1-Omni derzeit nur grundlegende Emotionen wie „glücklich“ oder „wütend“ erkennt, ist laut Alibaba-CEO Wu Yongming die künstliche allgemeine Intelligenz (AGI) das oberste Ziel des Unternehmens und die Entwicklung emotionaler Intelligenz für KI ein wichtiger Schritt nach vorn.
Kommentar (0)