این تصویر از یک فضانورد سوار بر اسب با استفاده از دو نوع مدل هوش مصنوعی مولد ایجاد شده است. عکس: اخبار MIT
وقتی سرعت و کیفیت دیگر یک بده بستان نیستند
در زمینه تصویربرداری هوش مصنوعی، در حال حاضر دو رویکرد اصلی وجود دارد:
مدلهای انتشار امکان ایجاد تصاویر واضح و دقیق را فراهم میکنند. با این حال، آنها کند و از نظر محاسباتی پرهزینه هستند و برای حذف نویز از هر پیکسل به دهها مرحله پردازش نیاز دارند.
مدلهای خودهمبستگی (Autoregressive) بسیار سریعتر هستند زیرا بخشهای کوچکی از یک تصویر را به صورت متوالی پیشبینی میکنند. اما اغلب تصاویری با جزئیات کمتر تولید میکنند و مستعد خطا هستند.
HART (ترانسفورماتور خودهمبسته ترکیبی) این دو را با هم ترکیب میکند و «بهترینهای هر دو جهان» را ارائه میدهد. ابتدا از یک مدل خودهمبسته برای ساخت تصویر کلی با رمزگذاری آن به توکنهای گسسته استفاده میکند. سپس، یک مدل انتشار سبک وزن برای پر کردن توکنهای باقیمانده - اطلاعات دقیقی که در طول رمزگذاری از دست رفتهاند - به کار گرفته میشود.
تصاویر حاصل از این روش، کیفیتی قابل مقایسه (یا بهتر) با مدلهای انتشار پیشرفته دارند، اما پردازش آنها 9 برابر سریعتر است و 31 درصد منابع محاسباتی کمتری مصرف میکنند.
رویکردی جدید برای ایجاد تصاویر با کیفیت و سرعت بالا
یکی از نوآوریهای قابل توجه HART، نحوه حل مشکل از دست دادن اطلاعات هنگام استفاده از مدلهای خودهمبسته است. تبدیل تصاویر به توکنهای گسسته، روند کار را سرعت میبخشد، اما جزئیات مهمی مانند لبههای اشیاء، ویژگیهای صورت، مو، چشمها، دهان و غیره را نیز از دست میدهد.
راه حل HART این است که مدل انتشار فقط بر «اصلاح» این جزئیات از طریق توکنهای باقیمانده تمرکز کند. و از آنجایی که مدل خودرگرسیونی بیشتر کار را انجام داده است، مدل انتشار به جای بیش از 30 مرحله مانند قبل، فقط به 8 مرحله پردازش نیاز دارد.
هائوتیان تانگ، یکی از نویسندگان این مقاله، توضیح میدهد: «مدل انتشار آسانتر پیادهسازی میشود و منجر به راندمان بالاتر میشود.»
به طور خاص، ترکیب یک مدل ترانسفورماتور خودهمبسته با ۷۰۰ میلیون پارامتر و یک مدل انتشار سبک با ۳۷ میلیون پارامتر، به HART عملکردی مشابه یک مدل انتشار با حداکثر ۲ میلیارد پارامتر میدهد، اما ۹ برابر سریعتر است.
در ابتدا، تیم همچنین سعی کرد مدل انتشار را در مراحل اولیه فرآیند تولید تصویر ادغام کند، اما این کار باعث ایجاد خطا شد. موثرترین رویکرد این بود که اجازه دهیم مدل انتشار مرحله نهایی را مدیریت کند و فقط روی قسمتهای «گمشده» تصویر تمرکز کند.
گشودن آینده هوش مصنوعی چندرسانهای
گام بعدی این تیم، ساخت مدلهای هوش مصنوعی بصری-زبانی نسل بعدی بر اساس معماری HART است. از آنجایی که HART مقیاسپذیر و با طیف وسیعی از انواع دادهها (چندوجهی) سازگار است، آنها انتظار دارند بتوانند آن را در تولید ویدیو ، پیشبینی صدا و بسیاری از زمینههای دیگر به کار گیرند.
این تحقیق توسط چندین سازمان از جمله آزمایشگاه هوش مصنوعی MIT-IBM Watson، مرکز علوم MIT-Amazon، برنامه سختافزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده تأمین مالی شده است. NVIDIA همچنین زیرساختهای GPU را برای آموزش مدل اهدا کرده است.
(طبق اخبار MIT)
منبع: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










نظر (0)