Новий інструмент штучного інтелекту створює високоякісні зображення в 9 разів швидше.

Вчені з MIT та NVIDIA успішно розробили HART – інструмент для створення високоякісних зображень на надзвичайно високій швидкості, споживаючи при цьому так мало ресурсів, що його можна запускати безпосередньо на ноутбуках або смартфонах.

VietNamNet•26/03/2025

Зображення астронавта, що їде верхи на коні, було створено шляхом поєднання двох типів моделей, згенерованих штучним інтелектом. Фото: MIT News

Коли швидкість і якість більше не є компромісом.

У сфері створення зображень за допомогою штучного інтелекту наразі існує два основні методи:

Дифузійні моделі дозволяють створювати детальні, чіткі зображення. Однак вони дуже повільні та споживають багато обчислювальних ресурсів, оскільки вимагають десятків етапів обробки для видалення шуму з кожного пікселя.

Авторегресивні моделі, з іншого боку, набагато швидші, оскільки вони можуть послідовно передбачати невеликі частини зображення. Однак вони часто створюють зображення з меншою деталізацією та схильні до помилок.

HART (гібридний авторегресивний трансформатор) поєднує обидва, пропонуючи «найкраще з обох світів». Спочатку він використовує авторегресивну модель для побудови загального зображення шляхом його кодування в дискретні токени. Потім, злегка дифузна модель додатково обробляє зображення, додаючи залишкові токени — деталі, втрачені під час процесу кодування.

Результатом є зображення порівнянної (або вищої) якості з найсучаснішими моделями дифузії, але обробка відбувається в дев'ять разів швидше та використовує на 31% менше обчислювальних ресурсів.

Цей новий підхід допомагає створювати високоякісні зображення з високою швидкістю.

Одним із помітних нововведень HART є те, як він вирішує проблему втрати інформації під час використання авторегресивних моделей. Перетворення зображень на дискретні токени прискорює процес, але також призводить до втрати важливих деталей, таких як контури об'єктів, риси обличчя, волосся, очі та рот.

Рішення HART полягає в тому, щоб дифузійна модель зосереджувалася виключно на "латанні" цих деталей за допомогою залишкових токенів. А оскільки модель вже виконала більшу частину роботи за допомогою авторегресії, дифузійній моделі потрібно лише 8 кроків обробки замість понад 30, як раніше.

«Модель дифузії легше реалізувати, а отже, ефективніша», – пояснив співавтор Хаотянь Тан.

Зокрема, поєднання моделі авторегресивного трансформатора з 700 мільйонами параметрів та моделі м'якої дифузії з 37 мільйонами параметрів дозволяє HART досягти продуктивності, порівнянної з моделлю дифузії з кількістю параметрів до 2 мільярдів, але в дев'ять разів швидше.

Спочатку дослідницька група також намагалася інтегрувати модель дифузії на ранніх етапах процесу створення зображення, але це призвело до накопичення помилок. Найефективніший підхід — дозволити моделі дифузії обробити останній крок і зосередитися лише на «відсутніх» частинах зображення.

Розкриття майбутнього мультимедійного штучного інтелекту.

Наступним кроком дослідницької групи є створення моделей штучного інтелекту – мови наступного покоління, заснованої на архітектурі HART. Оскільки HART є масштабованою та адаптованою до багатьох типів даних (мультимодальна), вони очікують, що зможуть застосовувати її для створення відео , прогнозування аудіо та багатьох інших галузей.

Це дослідження фінансувалося кількома організаціями, включаючи лабораторію штучного інтелекту Watson MIT-IBM, науковий центр MIT-Amazon, програму апаратного забезпечення штучного інтелекту MIT та Національний науковий фонд США. NVIDIA також надала інфраструктуру графічних процесорів для навчання моделі.

(За даними новин MIT)

Джерело: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html