گھوڑے پر سوار ایک خلاباز کی یہ تصویر دو قسم کے جنریٹو اے آئی ماڈلز کا استعمال کرتے ہوئے بنائی گئی تھی۔ تصویر: ایم آئی ٹی نیوز
جب رفتار اور معیار اب تجارت نہیں رہے گا۔
AI امیجنگ کے میدان میں، فی الحال دو اہم نقطہ نظر ہیں:
ڈفیوژن ماڈل تیز، تفصیلی تصاویر کی اجازت دیتے ہیں۔ تاہم، وہ سست اور حسابی طور پر مہنگے ہیں، ہر پکسل سے شور کو دور کرنے کے لیے درجنوں پروسیسنگ اقدامات کی ضرورت ہوتی ہے۔
خود بخود ماڈلز زیادہ تیز ہیں کیونکہ وہ تصویر کے چھوٹے حصوں کی ترتیب وار پیش گوئی کرتے ہیں۔ لیکن وہ اکثر کم تفصیل کے ساتھ تصاویر تیار کرتے ہیں اور غلطیوں کا شکار ہوتے ہیں۔
ہارٹ (ہائبرڈ آٹوریگریسو ٹرانسفارمر) دونوں کو یکجا کرتا ہے، "دونوں جہانوں میں بہترین" فراہم کرتا ہے۔ یہ سب سے پہلے ایک خودکار ماڈل کا استعمال کرتا ہے تاکہ مجموعی تصویر کو مجرد ٹوکنز میں انکوڈ کر کے اسے بنایا جا سکے۔ اس کے بعد، ایک ہلکا پھلکا پھیلاؤ ماڈل بقایا ٹوکنز کو بھرنے کے لیے کام کرتا ہے - انکوڈنگ کے دوران ضائع ہونے والی تفصیلی معلومات۔
نتیجے میں آنے والی تصاویر جدید ترین ڈفیوژن ماڈلز کے مقابلے (یا بہتر) معیار کی ہیں، لیکن 31% کم کمپیوٹیشنل وسائل کو پروسیس کرنے اور استعمال کرنے میں 9x تیز ہیں۔
تیز رفتاری سے معیاری تصاویر بنانے کا نیا طریقہ
ہارٹ کی قابل ذکر اختراعات میں سے ایک یہ ہے کہ یہ آٹوریگریسو ماڈلز کا استعمال کرتے ہوئے معلومات کے نقصان کے مسئلے کو کیسے حل کرتی ہے۔ تصویروں کو مجرد ٹوکن میں تبدیل کرنے سے عمل تیز ہو جاتا ہے، لیکن اس سے اہم تفصیلات جیسے کہ آبجیکٹ کے کنارے، چہرے کی خصوصیات، بال، آنکھیں، منہ وغیرہ بھی ضائع ہو جاتے ہیں۔
ہارٹ کا حل یہ ہے کہ ڈفیوژن ماڈل کو صرف بقایا ٹوکن کے ذریعے ان تفصیلات کو "پیچ اپ" کرنے پر فوکس کیا جائے۔ اور چونکہ آٹوریگریسو ماڈل پہلے ہی زیادہ تر کام کر چکا ہے، ڈفیوژن ماڈل کو پہلے کی طرح 30 سے زیادہ مراحل کی بجائے صرف 8 پروسیسنگ مراحل کی ضرورت ہے۔
شریک مصنف Haotian Tang کی وضاحت کرتا ہے، "ڈفیوژن ماڈل کو لاگو کرنا آسان ہے، جو اعلی کارکردگی کا باعث بنتا ہے۔"
خاص طور پر، 700 ملین پیرامیٹرز کے ساتھ ایک آٹوریگریسو ٹرانسفارمر ماڈل اور 37 ملین پیرامیٹرز کے ساتھ ہلکا پھلکا ڈفیوژن ماڈل کا امتزاج HART کو 2 بلین پیرامیٹرز کے ساتھ ڈفیوژن ماڈل جیسی کارکردگی دیتا ہے، لیکن 9 گنا تیز۔
ابتدائی طور پر، ٹیم نے تصویر بنانے کے عمل کے ابتدائی مراحل میں بازی ماڈل کو ضم کرنے کی بھی کوشش کی، لیکن اس میں غلطیاں جمع ہوئیں۔ سب سے مؤثر طریقہ یہ تھا کہ ڈفیوژن ماڈل کو آخری مرحلہ سنبھالنے دیا جائے اور صرف تصویر کے "گمشدہ" حصوں پر توجہ دی جائے۔
ملٹی میڈیا AI کا مستقبل کھولنا
ٹیم کا اگلا مرحلہ HART فن تعمیر پر مبنی اگلی نسل کے بصری-لسانی AI ماڈلز بنانا ہے۔ چونکہ HART وسیع پیمانے پر ڈیٹا کی اقسام (ملٹی موڈل) کے لیے قابل توسیع اور موافقت پذیر ہے، اس لیے وہ اسے ویڈیو جنریشن، آڈیو پیشین گوئی، اور بہت سے دوسرے شعبوں میں لاگو کرنے کے قابل ہونے کی توقع رکھتے ہیں۔
اس تحقیق کو MIT-IBM Watson AI Lab، MIT-Amazon Science Center، MIT AI ہارڈ ویئر پروگرام، اور یو ایس نیشنل سائنس فاؤنڈیشن سمیت متعدد تنظیموں نے مالی اعانت فراہم کی۔ NVIDIA نے ماڈل کو تربیت دینے کے لیے GPU انفراسٹرکچر بھی عطیہ کیا۔
(ایم آئی ٹی نیوز کے مطابق)
ماخذ: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










تبصرہ (0)