أداة الذكاء الاصطناعي الجديدة تُنشئ صورًا عالية الجودة أسرع بتسعة أضعاف.

نجح علماء من معهد ماساتشوستس للتكنولوجيا وشركة إنفيديا في تطوير HART - وهي أداة لإنشاء صور عالية الجودة بسرعات فائقة، مع استهلاك موارد قليلة للغاية بحيث يمكن تشغيلها مباشرة على أجهزة الكمبيوتر المحمولة أو الهواتف الذكية.

VietNamNet•26/03/2025

تم إنشاء صورة رائد الفضاء وهو يمتطي حصانًا من خلال دمج نوعين من النماذج المولدة بواسطة الذكاء الاصطناعي. الصورة: أخبار معهد ماساتشوستس للتكنولوجيا

عندما لا تكون السرعة والجودة خياراً بين أمرين.

في مجال إنشاء الصور باستخدام الذكاء الاصطناعي، توجد حاليًا طريقتان رئيسيتان:

تتيح نماذج الانتشار إنشاء صور مفصلة وواضحة. ومع ذلك، فهي بطيئة للغاية وتستهلك الكثير من موارد الحوسبة لأنها تتطلب عشرات خطوات المعالجة لإزالة التشويش من كل بكسل.

أما النماذج الانحدارية الذاتية، فهي أسرع بكثير لأنها تستطيع التنبؤ بأجزاء صغيرة من الصورة بشكل متسلسل. ومع ذلك، فإنها غالباً ما تنتج صوراً بتفاصيل أقل وتكون عرضة للأخطاء.

يجمع نموذج HART (المحول الهجين للانحدار الذاتي) بين الطريقتين، مقدماً "أفضل ما فيهما". أولاً، يستخدم نموذج الانحدار الذاتي لبناء الصورة الكلية عن طريق ترميزها إلى رموز منفصلة. ثم، يقوم نموذج منتشر قليلاً بمعالجة إضافية لإضافة الرموز المتبقية - التفاصيل المفقودة أثناء عملية الترميز.

والنتيجة هي صور بجودة مماثلة (أو أفضل) من نماذج الانتشار الأكثر تقدماً، ولكن المعالجة أسرع بتسعة أضعاف وتستخدم موارد حاسوبية أقل بنسبة 31٪.

يساعد هذا النهج الجديد في إنشاء صور عالية الجودة بسرعة عالية.

من أبرز ابتكارات خوارزمية HART كيفية معالجتها لمشكلة فقدان المعلومات عند استخدام نماذج الانحدار الذاتي. فعملية تحويل الصور إلى رموز منفصلة تُسرّع العملية، ولكنها تؤدي أيضاً إلى فقدان تفاصيل مهمة مثل حدود الأشياء، وملامح الوجه، والشعر، والعينين، والفم.

يتمثل حل HART في تركيز نموذج الانتشار حصراً على "معالجة" هذه التفاصيل باستخدام الرموز المتبقية. ولأن النموذج قد أنجز معظم العمل بالفعل من خلال الانحدار الذاتي، فإن نموذج الانتشار يحتاج فقط إلى 8 خطوات معالجة بدلاً من أكثر من 30 خطوة كما كان سابقاً.

وأوضح المؤلف المشارك هاوتيان تانغ قائلاً: "إن نموذج الانتشار أسهل في التنفيذ وبالتالي أكثر فعالية".

على وجه التحديد، فإن الجمع بين نموذج المحول الانحداري الذاتي مع 700 مليون معلمة ونموذج الانتشار المعتدل مع 37 مليون معلمة يسمح لـ HART بتحقيق أداء مماثل لنموذج الانتشار الذي يصل إلى 2 مليار معلمة، ولكنه أسرع بتسعة أضعاف.

في البداية، حاول فريق البحث دمج نموذج الانتشار في المراحل المبكرة من عملية إنشاء الصورة، لكن ذلك أدى إلى تراكم الأخطاء. والنهج الأكثر فعالية هو ترك نموذج الانتشار يتولى الخطوة الأخيرة والتركيز فقط على الأجزاء "المفقودة" من الصورة.

إطلاق العنان لمستقبل الذكاء الاصطناعي في مجال الوسائط المتعددة.

تتمثل الخطوة التالية لفريق البحث في بناء نماذج رؤية ذكاء اصطناعي، وهي لغة من الجيل التالي تعتمد على بنية HART. ونظرًا لأن HART قابلة للتوسع والتكيف مع أنواع متعددة من البيانات (متعددة الوسائط)، يتوقع الفريق إمكانية تطبيقها في إنشاء الفيديو ، والتنبؤ بالصوت، والعديد من المجالات الأخرى.

تم تمويل هذا البحث من قبل عدة منظمات، بما في ذلك مختبر MIT-IBM Watson للذكاء الاصطناعي، ومركز MIT-Amazon للعلوم ، وبرنامج MIT لأجهزة الذكاء الاصطناعي، والمؤسسة الوطنية الأمريكية للعلوم. كما وفرت NVIDIA بنية تحتية لوحدات معالجة الرسومات (GPU) لتدريب النموذج.

(بحسب أخبار معهد ماساتشوستس للتكنولوجيا)

المصدر: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html