أصدر مختبر تونغي التابع لشركة علي بابا نموذج R1-Omni كمصدر مفتوح يوم الثلاثاء (11 مارس). ويعتبر هذا أول نموذج لغوي شامل متعدد الوسائط، يطبق التعلم التعزيزي مع المكافآت القابلة للتحقق (RLVR) - وهي تقنية تعد بتحسين قدرة الذكاء الاصطناعي على التفكير وتحليل العواطف.
وقال فريق التطوير إنهم استخدموا RLVR لتحسين نموذج HumanOmni 0.5B مفتوح المصدر، مما أدى إلى تحسين ثلاثة عوامل مهمة بشكل كبير، بما في ذلك القدرة على الاستدلال، والدقة في التعرف على المشاعر، والقدرة على التعميم. وبحسب ما ورد، تمكن R1-Omni من فهم أفضل لكيفية مساعدة المعلومات البصرية والسمعية في التعرف على المشاعر، وتحديد العوامل التي تلعب دورًا أكثر أهمية في تقييم كل عاطفة.
في مقاطع الفيديو الاختبارية، تمكن R1-Omni من تحديد الحالة العاطفية للشخص من خلال الفيديو، بالإضافة إلى وصف ملابس الشخصية ومحيطها. ويمثل هذا خطوة كبيرة إلى الأمام في مجال الرؤية الحاسوبية.
أصبحت تقنية التعرف على المشاعر بالذكاء الاصطناعي تدريجيًا اتجاهًا مهمًا في صناعة التكنولوجيا. تُستخدم هذه التقنية غالبًا في التطبيقات الواقعية، مثل برامج الدردشة لدعم العملاء أو أنظمة المراقبة التي تكشف علامات إرهاق السائق أثناء قيادة سيارات تسلا الكهربائية.
مع إطلاق نموذج R1-Omni، تتسارع شركة علي بابا في سباق الذكاء الاصطناعي وتتحدى مكانة OpenAI. في حين أطلقت شركة OpenAI برنامج GPT-4.5، الذي يمكنه التعرف على الإشارات الدقيقة في أسئلة المستخدم والاستجابة لها، مقابل سعر يصل إلى 200 دولار شهريًا، تقدم شركة Alibaba برنامج R1-Omni مجانًا تمامًا على منصة Hugging Face.
على الرغم من أن R1-Omni يتعرف حاليًا فقط على المشاعر الأساسية مثل "السعادة" أو "الغضب"، وفقًا للرئيس التنفيذي لشركة علي بابا وو يونغ مينغ، فإن الذكاء الاصطناعي العام (AGI) هو الهدف الرئيسي للشركة، وأن تطوير الذكاء العاطفي للذكاء الاصطناعي هو خطوة مهمة إلى الأمام.
تعليق (0)