أُنشئت هذه الصورة لرائد فضاء يمتطي حصانًا باستخدام نوعين من نماذج الذكاء الاصطناعي التوليدي. الصورة: أخبار معهد ماساتشوستس للتكنولوجيا
عندما لم تعد السرعة والجودة متناقضتين
في مجال التصوير بالذكاء الاصطناعي، هناك حاليًا طريقتان رئيسيتان:
تتيح نماذج الانتشار صورًا واضحة ومفصلة. ومع ذلك، فهي بطيئة وتتطلب حسابات مكثفة، وتتطلب عشرات خطوات المعالجة لإزالة التشويش من كل بكسل.
نماذج الانحدار الذاتي أسرع بكثير لأنها تتنبأ بأجزاء صغيرة من الصورة بشكل تسلسلي. لكنها غالبًا ما تُنتج صورًا أقل تفصيلًا وأكثر عرضة للأخطاء.
يجمع هارت (محوّل الانحدار الذاتي الهجين) بين الاثنين، موفرًا أفضل ما في العالمين. يستخدم أولًا نموذج انحدار ذاتي لبناء الصورة الكلية بترميزها إلى رموز منفصلة. ثم يتولى نموذج انتشار خفيف الوزن مهمة ملء الرموز المتبقية - المعلومات التفصيلية المفقودة أثناء الترميز.
تتميز الصور الناتجة بجودة مماثلة (أو أفضل) لنماذج الانتشار الحديثة، ولكنها أسرع بـ 9 مرات في المعالجة وتستخدم موارد حسابية أقل بنسبة 31%.
نهج جديد لإنشاء صور عالية الجودة بسرعة عالية
من أبرز ابتكارات هارت حل مشكلة فقدان المعلومات عند استخدام نماذج الانحدار الذاتي. يُسرّع تحويل الصور إلى رموز منفصلة العملية، ولكنه يُفقد أيضًا تفاصيل مهمة، مثل حواف الجسم، وملامح الوجه، والشعر، والعينين، والفم، وغيرها.
حل هارت هو أن يركز نموذج الانتشار فقط على "ترقيع" هذه التفاصيل من خلال الرموز المتبقية. وبما أن نموذج الانحدار الذاتي قد أنجز معظم العمل بالفعل، فإن نموذج الانتشار لا يحتاج إلا إلى 8 خطوات معالجة بدلاً من أكثر من 30 خطوة كما كان في السابق.
يوضح المؤلف المشارك هاوتيان تانج: "إن نموذج الانتشار أسهل في التنفيذ، مما يؤدي إلى كفاءة أعلى".
على وجه التحديد، فإن الجمع بين نموذج المحول الانحداري التلقائي الذي يحتوي على 700 مليون معلمة ونموذج الانتشار خفيف الوزن الذي يحتوي على 37 مليون معلمة يمنح HART نفس أداء نموذج الانتشار الذي يحتوي على ما يصل إلى 2 مليار معلمة، ولكن أسرع بتسع مرات.
حاول الفريق في البداية دمج نموذج الانتشار في المراحل الأولى من عملية توليد الصورة، لكن هذا أدى إلى تراكم الأخطاء. كان النهج الأكثر فعالية هو ترك نموذج الانتشار يتولى الخطوة الأخيرة والتركيز فقط على الأجزاء "المفقودة" من الصورة.
إطلاق العنان لمستقبل الذكاء الاصطناعي متعدد الوسائط
تتمثل الخطوة التالية للفريق في بناء نماذج ذكاء اصطناعي بصرية لغوية من الجيل التالي، استنادًا إلى بنية HART. ونظرًا لقابلية HART للتوسع والتكيف مع مجموعة واسعة من أنواع البيانات (متعددة الوسائط)، يتوقع الفريق تطبيقها في توليد الفيديو ، والتنبؤ الصوتي، والعديد من المجالات الأخرى.
تم تمويل هذا البحث من قِبل عدة منظمات، منها مختبر MIT-IBM Watson للذكاء الاصطناعي، ومركز MIT-Amazon للعلوم ، وبرنامج MIT للذكاء الاصطناعي، والمؤسسة الوطنية الأمريكية للعلوم . كما تبرعت NVIDIA ببنية تحتية لوحدة معالجة الرسومات لتدريب النموذج.
(وفقا لأخبار معهد ماساتشوستس للتكنولوجيا)
المصدر: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
تعليق (0)