
گھوڑے پر سوار خلاباز کی تصویر دو قسم کے AI سے تیار کردہ ماڈلز کو ملا کر بنائی گئی۔ تصویر: ایم آئی ٹی نیوز
جب رفتار اور معیار اب تجارت نہیں رہے گا۔
AI سے چلنے والی تصویر بنانے کے میدان میں، فی الحال دو اہم طریقے ہیں:
ڈفیوژن ماڈل تفصیلی، تیز تصاویر بنانے کی اجازت دیتے ہیں۔ تاہم، وہ بہت سست ہیں اور بہت سارے کمپیوٹیشنل وسائل استعمال کرتے ہیں کیونکہ انہیں ہر پکسل سے شور کو دور کرنے کے لیے درجنوں پروسیسنگ اقدامات کی ضرورت ہوتی ہے۔
دوسری طرف خود بخود ماڈلز بہت تیز ہیں کیونکہ وہ تصویر کے چھوٹے حصوں کی ترتیب وار پیش گوئی کر سکتے ہیں۔ تاہم، وہ اکثر کم تفصیل کے ساتھ تصاویر تیار کرتے ہیں اور غلطیوں کا شکار ہوتے ہیں۔
ہارٹ (ہائبرڈ آٹوریگریسو ٹرانسفارمر) دونوں کو یکجا کرتا ہے، "دونوں جہانوں میں بہترین" پیش کرتا ہے۔ سب سے پہلے، یہ مجرد ٹوکنز میں انکوڈنگ کرکے مجموعی تصویر کی تعمیر کے لیے ایک خودکار ماڈل کا استعمال کرتا ہے۔ اس کے بعد، تھوڑا سا پھیلا ہوا ماڈل بقایا ٹوکنز کو شامل کرنے کے لیے مزید عمل کرتا ہے — انکوڈنگ کے عمل کے دوران ضائع ہونے والی تفصیلات۔
نتیجہ سب سے زیادہ جدید ڈفیوژن ماڈلز سے موازنہ (یا اعلیٰ) معیار کی تصاویر ہے، لیکن پروسیسنگ نو گنا تیز ہے اور 31% کم کمپیوٹنگ وسائل استعمال کرتی ہے۔
یہ نیا طریقہ تیز رفتاری سے اعلیٰ معیار کی تصاویر بنانے میں مدد کرتا ہے۔
ہارٹ کی قابل ذکر اختراعات میں سے ایک یہ ہے کہ یہ آٹوریگریسو ماڈل استعمال کرتے وقت معلومات کے نقصان کے مسئلے کو کیسے حل کرتی ہے۔ تصویروں کو مجرد ٹوکن میں تبدیل کرنے سے عمل تیز ہو جاتا ہے، لیکن اس کے نتیجے میں اہم تفصیلات جیسے کہ آبجیکٹ کی خاکہ، چہرے کی خصوصیات، بال، آنکھیں اور منہ بھی ضائع ہو جاتے ہیں۔
ہارٹ کا حل یہ ہے کہ ڈفیوژن ماڈل کو صرف بقایا ٹوکنز کا استعمال کرتے ہوئے ان تفصیلات کو "پیچ اپ" کرنے پر فوکس کیا جائے۔ اور چونکہ ماڈل پہلے ہی زیادہ تر کام آٹوریگریشن کے ذریعے کر چکا ہے، ڈفیوژن ماڈل کو پہلے کی طرح 30 سے زیادہ کے بجائے صرف 8 پروسیسنگ مراحل کی ضرورت ہے۔
شریک مصنف ہاؤٹین تانگ نے وضاحت کی کہ "تسلی بخش ماڈل کو لاگو کرنا آسان ہے اور اس لیے زیادہ موثر ہے۔"
خاص طور پر، 700 ملین پیرامیٹرز کے ساتھ ایک آٹوریگریسو ٹرانسفارمر ماڈل اور 37 ملین پیرامیٹرز کے ساتھ ایک ہلکے بازی ماڈل کا مجموعہ HART کو 2 بلین پیرامیٹرز کے ساتھ ڈفیوژن ماڈل کے مقابلے میں کارکردگی حاصل کرنے کی اجازت دیتا ہے، لیکن نو گنا تیز۔
ابتدائی طور پر، تحقیقی ٹیم نے تصویر بنانے کے عمل کے ابتدائی مراحل میں بازی ماڈل کو ضم کرنے کی بھی کوشش کی، لیکن اس کی وجہ سے غلطیاں جمع ہوئیں۔ سب سے زیادہ مؤثر طریقہ یہ ہے کہ ڈفیوژن ماڈل کو آخری مرحلہ سنبھالنے دیا جائے اور صرف تصویر کے "گمشدہ" حصوں پر توجہ دی جائے۔
ملٹی میڈیا AI کے مستقبل کو غیر مقفل کرنا۔
تحقیقی ٹیم کا اگلا مرحلہ AI وژن ماڈلز بنانا ہے – ایک اگلی نسل کی زبان جو HART فن تعمیر پر مبنی ہے۔ چونکہ HART بہت سے قسم کے ڈیٹا (ملٹی موڈل) کے لیے قابل توسیع اور موافقت پذیر ہے، اس لیے وہ اسے ویڈیو بنانے، آڈیو پیشین گوئی، اور بہت سے دیگر شعبوں میں لاگو کرنے کے قابل ہونے کی توقع رکھتے ہیں۔
اس تحقیق کو متعدد تنظیموں نے مالی اعانت فراہم کی، بشمول MIT-IBM Watson AI Lab، MIT-Amazon Science Center، MIT AI ہارڈ ویئر پروگرام، اور یو ایس نیشنل سائنس فاؤنڈیشن۔ NVIDIA نے ماڈل کی تربیت کے لیے GPU کا بنیادی ڈھانچہ بھی فراہم کیا۔
(ایم آئی ٹی نیوز کے مطابق)
ماخذ: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
تبصرہ (0)