
تصویر فضانورد سوار بر اسب با ترکیب دو نوع مدل تولید شده توسط هوش مصنوعی ایجاد شده است. عکس: اخبار MIT
وقتی سرعت و کیفیت دیگر یک بده بستان نیستند.
در زمینه خلق تصاویر با استفاده از هوش مصنوعی، در حال حاضر دو روش اصلی وجود دارد:
مدلهای انتشار امکان ایجاد تصاویر دقیق و واضح را فراهم میکنند. با این حال، آنها بسیار کند هستند و منابع محاسباتی زیادی را مصرف میکنند زیرا برای حذف نویز از هر پیکسل به دهها مرحله پردازش نیاز دارند.
از سوی دیگر، مدلهای خودهمبسته (Autoregressive) بسیار سریعتر هستند زیرا میتوانند بخشهای کوچکی از یک تصویر را به صورت متوالی پیشبینی کنند. با این حال، آنها اغلب تصاویری با جزئیات کمتر تولید میکنند و مستعد خطا هستند.
HART (ترانسفورماتور خودهمبسته ترکیبی) هر دو را با هم ترکیب میکند و "بهترینهای هر دو جهان" را ارائه میدهد. ابتدا، از یک مدل خودهمبسته برای ساخت تصویر کلی با رمزگذاری آن به نشانههای گسسته استفاده میکند. سپس، یک مدل کمی پراکنده، پردازشهای بیشتری را برای اضافه کردن نشانههای باقیمانده - جزئیاتی که در طول فرآیند رمزگذاری از دست رفتهاند - انجام میدهد.
نتیجه، تصاویری با کیفیت قابل مقایسه (یا برتر) با پیشرفتهترین مدلهای انتشار است، اما پردازش نه برابر سریعتر است و ۳۱٪ منابع محاسباتی کمتری استفاده میکند.
این رویکرد جدید به ایجاد تصاویر با کیفیت بالا و سرعت بالا کمک میکند.
یکی از نوآوریهای قابل توجه HART، نحوهی پرداختن به مشکل از دست دادن اطلاعات هنگام استفاده از مدلهای خودهمبسته است. تبدیل تصاویر به توکنهای گسسته، روند کار را سرعت میبخشد، اما همچنین منجر به از دست رفتن جزئیات مهمی مانند خطوط بیرونی اشیا، ویژگیهای صورت، مو، چشمها و دهان میشود.
راه حل HART این است که مدل انتشار صرفاً بر «اصلاح» این جزئیات با استفاده از توکنهای باقیمانده تمرکز کند. و از آنجا که این مدل قبلاً بیشتر کار را از طریق خودرگرسیون انجام داده است، مدل انتشار به جای بیش از 30 مرحله پردازشی مانند قبل، فقط به 8 مرحله پردازشی نیاز دارد.
هائوتیان تانگ، یکی از نویسندگان این مقاله، توضیح داد: «مدل انتشار، پیادهسازی آسانتری دارد و بنابراین مؤثرتر است.»
به طور خاص، ترکیب یک مدل ترانسفورماتور خودهمبسته با ۷۰۰ میلیون پارامتر و یک مدل انتشار ملایم با ۳۷ میلیون پارامتر به HART اجازه میدهد تا به عملکردی قابل مقایسه با یک مدل انتشار با حداکثر ۲ میلیارد پارامتر، اما نه برابر سریعتر، دست یابد.
در ابتدا، تیم تحقیقاتی همچنین سعی کرد مدل انتشار را در مراحل اولیه فرآیند ایجاد تصویر ادغام کند، اما این منجر به انباشت خطاها شد. موثرترین رویکرد این است که اجازه دهیم مدل انتشار مرحله نهایی را مدیریت کند و فقط روی قسمتهای "گمشده" تصویر تمرکز کند.
گشودن آینده هوش مصنوعی چندرسانهای
گام بعدی تیم تحقیقاتی، ساخت مدلهای بینایی هوش مصنوعی است - یک زبان نسل بعدی مبتنی بر معماری HART. از آنجا که HART مقیاسپذیر و سازگار با انواع مختلفی از دادهها (چندوجهی) است، آنها انتظار دارند بتوانند آن را در ساخت ویدیو ، پیشبینی صدا و بسیاری از زمینههای دیگر به کار گیرند.
این تحقیق توسط چندین سازمان، از جمله آزمایشگاه هوش مصنوعی MIT-IBM Watson، مرکز علوم MIT-Amazon، برنامه سختافزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده، تأمین مالی شده است. NVIDIA همچنین زیرساخت GPU را برای آموزش مدل فراهم کرده است.
(طبق اخبار MIT)
منبع: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
نظر (0)