Новый инструмент на основе искусственного интеллекта создает высококачественные изображения в 9 раз быстрее.

Ученые из Массачусетского технологического института и компании NVIDIA успешно разработали HART — инструмент для создания высококачественных изображений с исключительно высокой скоростью, потребляющий при этом так мало ресурсов, что может работать непосредственно на ноутбуках или смартфонах.

VietNamNet•26/03/2025

Изображение астронавта верхом на лошади было создано путем объединения двух типов моделей, сгенерированных искусственным интеллектом. Фото: MIT News

Когда скорость и качество перестают быть предметом компромисса.

В области создания изображений с помощью искусственного интеллекта в настоящее время существуют два основных метода:

Диффузионные модели позволяют создавать детализированные, четкие изображения. Однако они очень медленны и потребляют много вычислительных ресурсов, поскольку требуют десятков этапов обработки для удаления шума из каждого пикселя.

Авторегрессионные модели, с другой стороны, намного быстрее, поскольку они могут прогнозировать небольшие участки изображения последовательно. Однако они часто создают изображения с меньшей детализацией и подвержены ошибкам.

HART (гибридный авторегрессивный трансформер) сочетает в себе оба подхода, предлагая «лучшее из обоих миров». Сначала он использует авторегрессивную модель для построения общего изображения путем кодирования его в дискретные токены. Затем слегка диффузная модель дополнительно обрабатывает изображение, добавляя остаточные токены — детали, потерянные в процессе кодирования.

В результате получаются изображения, сопоставимые (или превосходящие) по качеству с самыми передовыми моделями диффузии, но обработка происходит в девять раз быстрее и использует на 31% меньше вычислительных ресурсов.

Этот новый подход помогает создавать высококачественные изображения с высокой скоростью.

Одним из важных нововведений HART является подход к решению проблемы потери информации при использовании авторегрессионных моделей. Преобразование изображений в дискретные токены ускоряет процесс, но также приводит к потере важных деталей, таких как контуры объектов, черты лица, волосы, глаза и рот.

Решение HART заключается в том, чтобы модель диффузии сосредоточилась исключительно на «доработке» этих деталей с помощью остаточных токенов. А поскольку модель уже выполнила большую часть работы с помощью авторегрессии, ей требуется всего 8 этапов обработки вместо более чем 30, как раньше.

«Диффузионную модель проще реализовать, а значит, она более эффективна», — пояснил соавтор Хаотянь Тан.

В частности, сочетание авторегрессионной модели с 700 миллионами параметров и модели мягкой диффузии с 37 миллионами параметров позволяет HART достичь производительности, сравнимой с моделью диффузии с числом параметров до 2 миллиардов, но при этом работать в девять раз быстрее.

Первоначально исследовательская группа также пыталась интегрировать модель диффузии на ранних этапах процесса создания изображения, но это привело к накоплению ошибок. Наиболее эффективный подход заключается в том, чтобы позволить модели диффузии обрабатывать заключительный этап и сосредоточиться только на «недостающих» частях изображения.

Раскрывая будущее мультимедийного искусственного интеллекта.

Следующим шагом исследовательской группы станет создание моделей компьютерного зрения на основе искусственного интеллекта — языка следующего поколения, базирующегося на архитектуре HART. Поскольку HART масштабируем и адаптируется ко многим типам данных (мультимодальным), они рассчитывают применить его в создании видео , прогнозировании звука и многих других областях.

Данное исследование финансировалось несколькими организациями, включая лабораторию MIT-IBM Watson AI, научный центр MIT-Amazon, программу MIT AI Hardware Program и Национальный научный фонд США. Компания NVIDIA также предоставила инфраструктуру GPU для обучения модели.

(По данным MIT News)

Источник: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html