Vietnam.vn - Nền tảng quảng bá Việt Nam

ابزار جدید هوش مصنوعی تصاویر با کیفیت بالا را 9 برابر سریعتر ایجاد می کند.

دانشمندان MIT و NVIDIA با موفقیت HART را توسعه داده‌اند - ابزاری برای ایجاد تصاویر با کیفیت بالا با سرعت فوق‌العاده بالا، در حالی که منابع بسیار کمی مصرف می‌کند که می‌تواند مستقیماً روی لپ‌تاپ‌ها یا تلفن‌های هوشمند اجرا شود.

VietNamNetVietNamNet26/03/2025

نام فایل: 1.jpg

تصویر فضانورد سوار بر اسب با ترکیب دو نوع مدل تولید شده توسط هوش مصنوعی ایجاد شده است. عکس: اخبار MIT


وقتی سرعت و کیفیت دیگر یک بده بستان نیستند.

در زمینه خلق تصاویر با استفاده از هوش مصنوعی، در حال حاضر دو روش اصلی وجود دارد:

مدل‌های انتشار امکان ایجاد تصاویر دقیق و واضح را فراهم می‌کنند. با این حال، آنها بسیار کند هستند و منابع محاسباتی زیادی را مصرف می‌کنند زیرا برای حذف نویز از هر پیکسل به ده‌ها مرحله پردازش نیاز دارند.

از سوی دیگر، مدل‌های خودهمبسته (Autoregressive) بسیار سریع‌تر هستند زیرا می‌توانند بخش‌های کوچکی از یک تصویر را به صورت متوالی پیش‌بینی کنند. با این حال، آنها اغلب تصاویری با جزئیات کمتر تولید می‌کنند و مستعد خطا هستند.

HART (ترانسفورماتور خودهمبسته ترکیبی) هر دو را با هم ترکیب می‌کند و "بهترین‌های هر دو جهان" را ارائه می‌دهد. ابتدا، از یک مدل خودهمبسته برای ساخت تصویر کلی با رمزگذاری آن به نشانه‌های گسسته استفاده می‌کند. سپس، یک مدل کمی پراکنده، پردازش‌های بیشتری را برای اضافه کردن نشانه‌های باقیمانده - جزئیاتی که در طول فرآیند رمزگذاری از دست رفته‌اند - انجام می‌دهد.

نتیجه، تصاویری با کیفیت قابل مقایسه (یا برتر) با پیشرفته‌ترین مدل‌های انتشار است، اما پردازش نه برابر سریع‌تر است و ۳۱٪ منابع محاسباتی کمتری استفاده می‌کند.

این رویکرد جدید به ایجاد تصاویر با کیفیت بالا و سرعت بالا کمک می‌کند.

یکی از نوآوری‌های قابل توجه HART، نحوه‌ی پرداختن به مشکل از دست دادن اطلاعات هنگام استفاده از مدل‌های خودهمبسته است. تبدیل تصاویر به توکن‌های گسسته، روند کار را سرعت می‌بخشد، اما همچنین منجر به از دست رفتن جزئیات مهمی مانند خطوط بیرونی اشیا، ویژگی‌های صورت، مو، چشم‌ها و دهان می‌شود.

راه حل HART این است که مدل انتشار صرفاً بر «اصلاح» این جزئیات با استفاده از توکن‌های باقیمانده تمرکز کند. و از آنجا که این مدل قبلاً بیشتر کار را از طریق خودرگرسیون انجام داده است، مدل انتشار به جای بیش از 30 مرحله پردازشی مانند قبل، فقط به 8 مرحله پردازشی نیاز دارد.

هائوتیان تانگ، یکی از نویسندگان این مقاله، توضیح داد: «مدل انتشار، پیاده‌سازی آسان‌تری دارد و بنابراین مؤثرتر است.»

به طور خاص، ترکیب یک مدل ترانسفورماتور خودهمبسته با ۷۰۰ میلیون پارامتر و یک مدل انتشار ملایم با ۳۷ میلیون پارامتر به HART اجازه می‌دهد تا به عملکردی قابل مقایسه با یک مدل انتشار با حداکثر ۲ میلیارد پارامتر، اما نه برابر سریع‌تر، دست یابد.

در ابتدا، تیم تحقیقاتی همچنین سعی کرد مدل انتشار را در مراحل اولیه فرآیند ایجاد تصویر ادغام کند، اما این منجر به انباشت خطاها شد. موثرترین رویکرد این است که اجازه دهیم مدل انتشار مرحله نهایی را مدیریت کند و فقط روی قسمت‌های "گمشده" تصویر تمرکز کند.

گشودن آینده هوش مصنوعی چندرسانه‌ای

گام بعدی تیم تحقیقاتی، ساخت مدل‌های بینایی هوش مصنوعی است - یک زبان نسل بعدی مبتنی بر معماری HART. از آنجا که HART مقیاس‌پذیر و سازگار با انواع مختلفی از داده‌ها (چندوجهی) است، آنها انتظار دارند بتوانند آن را در ساخت ویدیو ، پیش‌بینی صدا و بسیاری از زمینه‌های دیگر به کار گیرند.

این تحقیق توسط چندین سازمان، از جمله آزمایشگاه هوش مصنوعی MIT-IBM Watson، مرکز علوم MIT-Amazon، برنامه سخت‌افزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده، تأمین مالی شده است. NVIDIA همچنین زیرساخت GPU را برای آموزش مدل فراهم کرده است.

(طبق اخبار MIT)


منبع: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


نظر (0)

لطفاً نظر دهید تا احساسات خود را با ما به اشتراک بگذارید!

در همان موضوع

در همان دسته‌بندی

از همان نویسنده

میراث

شکل

کسب و کارها

امور جاری

نظام سیاسی

محلی

محصول

Happy Vietnam
دو سان: نگاهی نو

دو سان: نگاهی نو

شادی خانواده

شادی خانواده

آرامش در نگاه کودک

آرامش در نگاه کودک