Це зображення астронавта, який їде верхи на коні, було створено за допомогою двох типів генеративних моделей штучного інтелекту. Фото: MIT News
Коли швидкість і якість більше не є компромісом
У сфері штучного інтелекту (ШІ) візуалізації наразі існує два основних підходи:
Дифузійні моделі дозволяють отримувати чіткі, деталізовані зображення. Однак вони повільні та обчислювально дорогі, вимагаючи десятків етапів обробки для видалення шуму з кожного пікселя.
Авторегресивні моделі набагато швидші, оскільки вони послідовно прогнозують невеликі частини зображення. Але вони часто створюють зображення з меншою деталізацією та схильні до помилок.
HART (гібридний авторегресивний трансформатор) поєднує ці два методи, забезпечуючи «найкраще з обох світів». Спочатку він використовує авторегресивну модель для побудови загального зображення, кодуючи його в дискретні токени. Потім, полегшена дифузійна модель бере на себе заповнення залишкових токенів – детальної інформації, втраченої під час кодування.
Отримані зображення мають порівнянну (або кращу) якість із зображеннями найсучасніших моделей дифузії, але обробляються в 9 разів швидше та використовують на 31% менше обчислювальних ресурсів.
Новий підхід до створення якісних зображень з високою швидкістю
Одним із помітних нововведень HART є те, як він вирішує проблему втрати інформації під час використання авторегресивних моделей. Перетворення зображень на дискретні токени прискорює процес, але також втрачає важливі деталі, такі як краї об'єктів, риси обличчя, волосся, очі, роти тощо.
Рішення HART полягає в тому, щоб дифузійна модель зосереджувалася лише на «латанні» цих деталей за допомогою залишкових токенів. А оскільки авторегресивна модель вже виконала більшу частину роботи, дифузійній моделі потрібно лише 8 кроків обробки замість понад 30, як раніше.
«Модель дифузії легше реалізувати, що призводить до вищої ефективності», – пояснює співавтор Хаотянь Тан.
Зокрема, поєднання моделі авторегресивного трансформатора з 700 мільйонами параметрів та полегшеної дифузійної моделі з 37 мільйонами параметрів забезпечує HART таку ж продуктивність, як і дифузійна модель з кількістю параметрів до 2 мільярдів, але в 9 разів швидшу.
Спочатку команда також намагалася інтегрувати модель дифузії на ранніх етапах процесу створення зображення, але це накопичувало помилки. Найефективнішим підходом було дозволити моделі дифузії обробити останній крок і зосередитися лише на «відсутніх» частинах зображення.
Відкриття майбутнього мультимедійного штучного інтелекту
Наступним кроком команди є створення візуально-лінгвістичних моделей штучного інтелекту наступного покоління на основі архітектури HART. Оскільки HART є масштабованою та адаптованою до широкого спектру типів даних (мультимодальна), вони очікують, що зможуть застосовувати її для генерації відео , прогнозування аудіо та багатьох інших галузей.
Це дослідження фінансувалося кількома організаціями, включаючи Лабораторію штучного інтелекту Watson MIT-IBM, Науковий центр MIT-Amazon, Програму апаратного забезпечення штучного інтелекту MIT та Національний науковий фонд США. NVIDIA також надала інфраструктуру графічних процесорів для навчання моделі.
(За даними новин MIT)
Джерело: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Коментар (0)