Vietnam.vn - Nền tảng quảng bá Việt Nam

Новый инструмент ИИ создает высококачественные фотографии в 9 раз быстрее

Ученые из Массачусетского технологического института и NVIDIA успешно разработали HART — инструмент, который создает высококачественные изображения на исключительно высокой скорости, потребляя при этом так мало ресурсов, что его можно запускать прямо на ноутбуке или смартфоне.

VietNamNetVietNamNet26/03/2025

фото 1.jpg

Это изображение астронавта верхом на лошади было создано с использованием двух типов генеративных моделей искусственного интеллекта. Фото: MIT News


Когда скорость и качество больше не являются компромиссом

В области ИИ-визуализации в настоящее время существует два основных подхода:

Модели диффузии позволяют получать чёткие и детальные изображения. Однако они медленные и требуют больших вычислительных затрат, требуя десятков этапов обработки для удаления шума из каждого пикселя.

Авторегрессионные модели работают гораздо быстрее, поскольку они последовательно предсказывают небольшие участки изображения. Но они часто создают изображения с меньшей детализацией и подвержены ошибкам.

HART (гибридный авторегрессионный преобразователь) объединяет эти два подхода, предлагая «лучшее из обоих миров». Сначала он использует модель авторегрессии для построения общего изображения путём его кодирования в дискретные токены. Затем лёгкая диффузионная модель заполняет остаточные токены – подробную информацию, потерянную при кодировании.

Получаемые изображения по качеству сопоставимы (или превосходят) с современными моделями диффузии, но обрабатываются в 9 раз быстрее и используют на 31% меньше вычислительных ресурсов.

Новый подход к созданию качественных изображений на высокой скорости

Одно из заметных нововведений HART — решение проблемы потери информации при использовании авторегрессионных моделей. Преобразование изображений в дискретные токены ускоряет процесс, но при этом теряется важная информация, такая как края объектов, черты лица, волосы, глаза, рты и т. д.

Решение HART заключается в том, чтобы модель диффузии сосредоточилась только на «исправлении» этих деталей с помощью остаточных токенов. Поскольку модель авторегрессии уже выполнила большую часть работы, модели диффузии требуется всего 8 этапов обработки вместо более чем 30, как раньше.

«Модель диффузии проще реализовать, что приводит к более высокой эффективности», — объясняет соавтор Хаотянь Тан.

В частности, сочетание модели авторегрессионного трансформатора с 700 миллионами параметров и облегченной диффузионной модели с 37 миллионами параметров обеспечивает HART ту же производительность, что и диффузионная модель с 2 миллиардами параметров, но в 9 раз быстрее.

Изначально команда также пыталась интегрировать модель диффузии на ранних этапах процесса генерации изображения, но это приводило к накоплению ошибок. Наиболее эффективным подходом было позволить модели диффузии выполнить последний этап и сосредоточиться только на «отсутствующих» частях изображения.

Открывая будущее мультимедийного ИИ

Следующим шагом команды станет создание визуально-лингвистических моделей искусственного интеллекта нового поколения на основе архитектуры HART. Поскольку HART масштабируется и адаптируется к широкому спектру типов данных (мультимодальный), они рассчитывают применять его для создания видео , аудиопрогнозирования и многих других областей.

Это исследование финансировалось несколькими организациями, включая лабораторию искусственного интеллекта Watson MIT-IBM, научный центр MIT-Amazon, программу MIT AI Hardware Program и Национальный научный фонд США. NVIDIA также предоставила инфраструктуру графических процессоров для обучения модели.

(По данным новостей MIT)


Источник: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Комментарий (0)

Оставьте комментарий, чтобы поделиться своими чувствами!

Та же тема

Та же категория

Собор Парижской Богоматери в Хошимине ярко освещен в честь Рождества 2025 года
Девушки из Ханоя красиво «наряжаются» к Рождеству
Жители деревни хризантем Тет в Джиа Лай, ожившей после шторма и наводнения, надеются, что никаких отключений электроэнергии не произойдет, и растения спасутся.
Столица желтого абрикоса в Центральном регионе понесла тяжелые потери после двойного стихийного бедствия

Тот же автор

Наследство

Фигура

Бизнес

В кофейне Далата на 300% увеличилось количество клиентов, так как владелец сыграл роль в «фильме о боевых искусствах»

Текущие события

Политическая система

Местный

Продукт

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC