أُنشئت هذه الصورة لرائد فضاء يمتطي حصانًا باستخدام نوعين من نماذج الذكاء الاصطناعي التوليدي. الصورة: أخبار معهد ماساتشوستس للتكنولوجيا
عندما لم تعد السرعة والجودة مقايضة
في مجال التصوير بالذكاء الاصطناعي، هناك حاليًا نهجان رئيسيان:
تتيح نماذج الانتشار الحصول على صور واضحة ومفصلة. إلا أنها بطيئة ومكلفة حسابيًا، وتتطلب عشرات خطوات المعالجة لإزالة التشويش من كل بكسل.
نماذج الانحدار الذاتي أسرع بكثير لأنها تتنبأ بأجزاء صغيرة من الصورة بشكل تسلسلي. لكنها غالبًا ما تُنتج صورًا أقل تفصيلًا وأكثر عرضة للأخطاء.
يجمع هارت (محوّل الانحدار الذاتي الهجين) بين الاثنين، موفرًا أفضل ما في العالمين. يستخدم أولًا نموذج انحدار ذاتي لبناء الصورة الكلية بترميزها إلى رموز منفصلة. ثم يتولى نموذج انتشار خفيف الوزن مهمة ملء الرموز المتبقية - المعلومات التفصيلية المفقودة أثناء الترميز.
تتميز الصور الناتجة بجودة مماثلة (أو أفضل) لنماذج الانتشار الحديثة، ولكنها أسرع بنحو 9 مرات في المعالجة وتستخدم موارد حسابية أقل بنسبة 31%.
نهج جديد لإنشاء صور عالية الجودة بسرعة عالية
من أبرز ابتكارات هارت حل مشكلة فقدان المعلومات عند استخدام نماذج الانحدار التلقائي. يُسرّع تحويل الصور إلى رموز منفصلة العملية، ولكنه يُفقد أيضًا تفاصيل مهمة، مثل حواف الجسم، وملامح الوجه، والشعر، والعينين، والفم، وغيرها.
حل هارت هو أن يُركز نموذج الانتشار فقط على "ترقيع" هذه التفاصيل من خلال الرموز المتبقية. وبما أن نموذج الانحدار الذاتي قد أنجز معظم العمل بالفعل، فإن نموذج الانتشار لا يحتاج إلا إلى 8 خطوات معالجة بدلاً من أكثر من 30 خطوة كما كان سابقًا.
يوضح المؤلف المشارك هاوتيان تانج: "إن نموذج الانتشار أسهل في التنفيذ، مما يؤدي إلى كفاءة أعلى".
على وجه التحديد، فإن الجمع بين نموذج المحول الانحداري التلقائي مع 700 مليون معلمة ونموذج الانتشار خفيف الوزن مع 37 مليون معلمة يمنح HART نفس أداء نموذج الانتشار مع ما يصل إلى 2 مليار معلمة، ولكن أسرع 9 مرات.
في البداية، حاول الفريق دمج نموذج الانتشار في المراحل الأولى من عملية توليد الصورة، لكن هذا أدى إلى تراكم الأخطاء. كان النهج الأكثر فعالية هو ترك نموذج الانتشار يتولى الخطوة الأخيرة والتركيز فقط على الأجزاء "المفقودة" من الصورة.
افتتاح مستقبل الذكاء الاصطناعي متعدد الوسائط
تتمثل الخطوة التالية للفريق في بناء نماذج ذكاء اصطناعي بصرية لغوية من الجيل التالي، استنادًا إلى بنية HART. ونظرًا لقابلية HART للتوسع والتكيف مع مجموعة واسعة من أنواع البيانات (متعددة الوسائط)، يتوقع الفريق تطبيقها في توليد الفيديو ، والتنبؤ الصوتي، والعديد من المجالات الأخرى.
تم تمويل هذا البحث من قِبل عدة منظمات، منها مختبر MIT-IBM Watson للذكاء الاصطناعي، ومركز MIT-Amazon للعلوم ، وبرنامج MIT للذكاء الاصطناعي، والمؤسسة الوطنية الأمريكية للعلوم. كما تبرعت NVIDIA ببنية تحتية لوحدة معالجة الرسومات لتدريب النموذج.
(وفقا لأخبار معهد ماساتشوستس للتكنولوجيا)
المصدر: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










تعليق (0)