Vietnam.vn - Nền tảng quảng bá Việt Nam

Новий інструмент штучного інтелекту створює високоякісні фотографії в 9 разів швидше

Вчені з MIT та NVIDIA успішно розробили HART – інструмент, який створює високоякісні зображення з надзвичайно високою швидкістю, споживаючи при цьому так мало ресурсів, що може працювати безпосередньо на ноутбуці або смартфоні.

VietNamNetVietNamNet26/03/2025

фото 1.jpg

Це зображення астронавта, який їде верхи на коні, було створено за допомогою двох типів генеративних моделей штучного інтелекту. Фото: MIT News


Коли швидкість і якість більше не є компромісом

У сфері штучного інтелекту (ШІ) візуалізації наразі існує два основних підходи:

Дифузійні моделі дозволяють отримувати чіткі, деталізовані зображення. Однак вони повільні та обчислювально дорогі, вимагаючи десятків етапів обробки для видалення шуму з кожного пікселя.

Авторегресивні моделі набагато швидші, оскільки вони послідовно прогнозують невеликі частини зображення. Але вони часто створюють зображення з меншою деталізацією та схильні до помилок.

HART (гібридний авторегресивний трансформатор) поєднує ці два методи, забезпечуючи «найкраще з обох світів». Спочатку він використовує авторегресивну модель для побудови загального зображення, кодуючи його в дискретні токени. Потім, полегшена дифузійна модель бере на себе заповнення залишкових токенів – детальної інформації, втраченої під час кодування.

Отримані зображення мають порівнянну (або кращу) якість із зображеннями найсучасніших моделей дифузії, але обробляються в 9 разів швидше та використовують на 31% менше обчислювальних ресурсів.

Новий підхід до створення якісних зображень з високою швидкістю

Одним із помітних нововведень HART є те, як він вирішує проблему втрати інформації під час використання авторегресивних моделей. Перетворення зображень на дискретні токени прискорює процес, але також втрачає важливі деталі, такі як краї об'єктів, риси обличчя, волосся, очі, роти тощо.

Рішення HART полягає в тому, щоб дифузійна модель зосереджувалася лише на «латанні» цих деталей за допомогою залишкових токенів. А оскільки авторегресивна модель вже виконала більшу частину роботи, дифузійній моделі потрібно лише 8 кроків обробки замість понад 30, як раніше.

«Модель дифузії легше реалізувати, що призводить до вищої ефективності», – пояснює співавтор Хаотянь Тан.

Зокрема, поєднання моделі авторегресивного трансформатора з 700 мільйонами параметрів та полегшеної дифузійної моделі з 37 мільйонами параметрів забезпечує HART таку ж продуктивність, як і дифузійна модель з кількістю параметрів до 2 мільярдів, але в 9 разів швидшу.

Спочатку команда також намагалася інтегрувати модель дифузії на ранніх етапах процесу створення зображення, але це накопичувало помилки. Найефективнішим підходом було дозволити моделі дифузії обробити останній крок і зосередитися лише на «відсутніх» частинах зображення.

Відкриття майбутнього мультимедійного штучного інтелекту

Наступним кроком команди є створення візуально-лінгвістичних моделей штучного інтелекту наступного покоління на основі архітектури HART. Оскільки HART є масштабованою та адаптованою до широкого спектру типів даних (мультимодальна), вони очікують, що зможуть застосовувати її для генерації відео , прогнозування аудіо та багатьох інших галузей.

Це дослідження фінансувалося кількома організаціями, включаючи Лабораторію штучного інтелекту Watson MIT-IBM, Науковий центр MIT-Amazon, Програму апаратного забезпечення штучного інтелекту MIT та Національний науковий фонд США. NVIDIA також надала інфраструктуру графічних процесорів для навчання моделі.

(За даними новин MIT)


Джерело: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Коментар (0)

Залиште коментар, щоб поділитися своїми почуттями!

У тій самій темі

У тій самій категорії

Собор Нотр-Дам у Хошиміні яскраво освітлений, щоб зустріти Різдво 2025 року
Дівчата з Ханоя гарно "вбираються" на Різдво
Осяяні після шторму та повені, мешканці хризантемового села Тет у Гіа Лай сподіваються, що перебоїв з електроенергією не буде, щоб врятувати рослини.
Столиця жовтого абрикоса в Центральному регіоні зазнала великих збитків після подвійного стихійного лиха

Того ж автора

Спадщина

Фігура

Бізнес

Кав'ярня в Далаті зазнала зростання кількості клієнтів на 300% завдяки тому, що власник зіграв роль у фільмі про бойові мистецтва

Поточні події

Політична система

Місцевий

Продукт

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC