ابزار جدید هوش مصنوعی، عکس‌های باکیفیتی را ۹ برابر سریع‌تر ایجاد می‌کند

دانشمندان MIT و NVIDIA با موفقیت HART را توسعه داده‌اند - ابزاری که تصاویر با کیفیت بالا را با سرعت فوق‌العاده بالایی ایجاد می‌کند، در حالی که منابع بسیار کمی مصرف می‌کند که می‌تواند مستقیماً روی لپ‌تاپ یا تلفن هوشمند اجرا شود.

VietNamNet•26/03/2025

عکس ۱.jpg

این تصویر از یک فضانورد سوار بر اسب با استفاده از دو نوع مدل هوش مصنوعی مولد ایجاد شده است. عکس: اخبار MIT

وقتی سرعت و کیفیت دیگر یک بده بستان نیستند

در زمینه تصویربرداری هوش مصنوعی، در حال حاضر دو رویکرد اصلی وجود دارد:

مدل‌های انتشار امکان ایجاد تصاویر واضح و دقیق را فراهم می‌کنند. با این حال، آنها کند و از نظر محاسباتی پرهزینه هستند و برای حذف نویز از هر پیکسل به ده‌ها مرحله پردازش نیاز دارند.

مدل‌های خودهمبستگی (Autoregressive) بسیار سریع‌تر هستند زیرا بخش‌های کوچکی از یک تصویر را به صورت متوالی پیش‌بینی می‌کنند. اما اغلب تصاویری با جزئیات کمتر تولید می‌کنند و مستعد خطا هستند.

HART (ترانسفورماتور خودهمبسته ترکیبی) این دو را با هم ترکیب می‌کند و «بهترین‌های هر دو جهان» را ارائه می‌دهد. ابتدا از یک مدل خودهمبسته برای ساخت تصویر کلی با رمزگذاری آن به توکن‌های گسسته استفاده می‌کند. سپس، یک مدل انتشار سبک وزن برای پر کردن توکن‌های باقیمانده - اطلاعات دقیقی که در طول رمزگذاری از دست رفته‌اند - به کار گرفته می‌شود.

تصاویر حاصل از این روش، کیفیتی قابل مقایسه (یا بهتر) با مدل‌های انتشار پیشرفته دارند، اما پردازش آنها 9 برابر سریع‌تر است و 31 درصد منابع محاسباتی کمتری مصرف می‌کنند.

رویکردی جدید برای ایجاد تصاویر با کیفیت و سرعت بالا

یکی از نوآوری‌های قابل توجه HART، نحوه حل مشکل از دست دادن اطلاعات هنگام استفاده از مدل‌های خودهمبسته است. تبدیل تصاویر به توکن‌های گسسته، روند کار را سرعت می‌بخشد، اما جزئیات مهمی مانند لبه‌های اشیاء، ویژگی‌های صورت، مو، چشم‌ها، دهان و غیره را نیز از دست می‌دهد.

راه حل HART این است که مدل انتشار فقط بر «اصلاح» این جزئیات از طریق توکن‌های باقیمانده تمرکز کند. و از آنجایی که مدل خودرگرسیونی بیشتر کار را انجام داده است، مدل انتشار به جای بیش از 30 مرحله مانند قبل، فقط به 8 مرحله پردازش نیاز دارد.

هائوتیان تانگ، یکی از نویسندگان این مقاله، توضیح می‌دهد: «مدل انتشار آسان‌تر پیاده‌سازی می‌شود و منجر به راندمان بالاتر می‌شود.»

به طور خاص، ترکیب یک مدل ترانسفورماتور خودهمبسته با ۷۰۰ میلیون پارامتر و یک مدل انتشار سبک با ۳۷ میلیون پارامتر، به HART عملکردی مشابه یک مدل انتشار با حداکثر ۲ میلیارد پارامتر می‌دهد، اما ۹ برابر سریع‌تر است.

در ابتدا، تیم همچنین سعی کرد مدل انتشار را در مراحل اولیه فرآیند تولید تصویر ادغام کند، اما این کار باعث ایجاد خطا شد. موثرترین رویکرد این بود که اجازه دهیم مدل انتشار مرحله نهایی را مدیریت کند و فقط روی قسمت‌های «گمشده» تصویر تمرکز کند.

گشودن آینده هوش مصنوعی چندرسانه‌ای

گام بعدی این تیم، ساخت مدل‌های هوش مصنوعی بصری-زبانی نسل بعدی بر اساس معماری HART است. از آنجایی که HART مقیاس‌پذیر و با طیف وسیعی از انواع داده‌ها (چندوجهی) سازگار است، آنها انتظار دارند بتوانند آن را در تولید ویدیو ، پیش‌بینی صدا و بسیاری از زمینه‌های دیگر به کار گیرند.

این تحقیق توسط چندین سازمان از جمله آزمایشگاه هوش مصنوعی MIT-IBM Watson، مرکز علوم MIT-Amazon، برنامه سخت‌افزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده تأمین مالی شده است. NVIDIA همچنین زیرساخت‌های GPU را برای آموزش مدل اهدا کرده است.

(طبق اخبار MIT)

منبع: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html