Это изображение астронавта верхом на лошади было создано с использованием двух типов генеративных моделей искусственного интеллекта. Фото: MIT News
Когда скорость и качество больше не являются компромиссами
В области ИИ-визуализации в настоящее время существует два основных подхода:
Модели диффузии позволяют получать чёткие и детальные изображения. Однако они медленные и требуют больших вычислительных затрат, требуя десятков этапов обработки для удаления шума из каждого пикселя.
Авторегрессионные модели работают гораздо быстрее, поскольку они последовательно предсказывают небольшие участки изображения. Но они часто создают изображения с меньшей детализацией и подвержены ошибкам.
HART (гибридный авторегрессионный преобразователь) объединяет оба подхода, предлагая «лучшее из обоих миров». Сначала он использует модель авторегрессии для построения общего изображения путём его кодирования в дискретные токены. Затем лёгкая диффузионная модель заполняет остаточные токены – подробную информацию, потерянную при кодировании.
Получаемые изображения по качеству сопоставимы (или превосходят) с современными моделями диффузии, но обрабатываются в 9 раз быстрее и используют на 31% меньше вычислительных ресурсов.
Новый подход к созданию качественных изображений на высокой скорости
Одно из заметных нововведений HART — решение проблемы потери информации при использовании авторегрессионных моделей. Преобразование изображений в дискретные токены ускоряет процесс, но при этом теряется важная информация, такая как края объектов, черты лица, волосы, глаза, рты и т. д.
Решение HART заключается в том, чтобы модель диффузии сосредоточилась только на «исправлении» этих деталей с помощью остаточных токенов. Поскольку модель авторегрессии уже выполнила большую часть работы, модели диффузии требуется всего 8 этапов обработки вместо более чем 30, как раньше.
«Модель диффузии проще реализовать, что приводит к более высокой эффективности», — объясняет соавтор Хаотянь Тан.
В частности, сочетание модели авторегрессионного трансформатора с 700 миллионами параметров и облегченной модели диффузии с 37 миллионами параметров обеспечивает HART ту же производительность, что и модель диффузии с 2 миллиардами параметров, но в девять раз быстрее.
Изначально команда пыталась интегрировать модель диффузии на ранних этапах процесса генерации изображения, но это привело к накоплению ошибок. Наиболее эффективным подходом было позволить модели диффузии выполнить последний этап и сосредоточиться только на «отсутствующих» частях изображения.
Открывая будущее мультимедийного ИИ
Следующим шагом команды станет создание визуально-лингвистических моделей искусственного интеллекта нового поколения на основе архитектуры HART. Поскольку HART масштабируется и адаптируется к широкому спектру типов данных (мультимодальный), они рассчитывают применять его для создания видео , аудиопрогнозирования и многих других областей.
Это исследование финансировалось несколькими организациями, включая лабораторию искусственного интеллекта Watson MIT-IBM, научный центр MIT-Amazon, программу MIT AI Hardware Program и Национальный научный фонд США. NVIDIA также предоставила инфраструктуру графических процессоров для обучения модели.
(По данным новостей MIT)
Источник: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Комментарий (0)