
Изображение астронавта верхом на лошади было создано путем объединения двух типов моделей, сгенерированных искусственным интеллектом. Фото: MIT News
Когда скорость и качество перестают быть предметом компромисса.
В области создания изображений с помощью искусственного интеллекта в настоящее время существуют два основных метода:
Диффузионные модели позволяют создавать детализированные, четкие изображения. Однако они очень медленны и потребляют много вычислительных ресурсов, поскольку требуют десятков этапов обработки для удаления шума из каждого пикселя.
Авторегрессионные модели, с другой стороны, намного быстрее, поскольку они могут прогнозировать небольшие участки изображения последовательно. Однако они часто создают изображения с меньшей детализацией и подвержены ошибкам.
HART (гибридный авторегрессивный трансформер) сочетает в себе оба подхода, предлагая «лучшее из обоих миров». Сначала он использует авторегрессивную модель для построения общего изображения путем кодирования его в дискретные токены. Затем слегка диффузная модель дополнительно обрабатывает изображение, добавляя остаточные токены — детали, потерянные в процессе кодирования.
В результате получаются изображения, сопоставимые (или превосходящие) по качеству с самыми передовыми моделями диффузии, но обработка происходит в девять раз быстрее и использует на 31% меньше вычислительных ресурсов.
Этот новый подход помогает создавать высококачественные изображения с высокой скоростью.
Одним из важных нововведений HART является подход к решению проблемы потери информации при использовании авторегрессионных моделей. Преобразование изображений в дискретные токены ускоряет процесс, но также приводит к потере важных деталей, таких как контуры объектов, черты лица, волосы, глаза и рот.
Решение HART заключается в том, чтобы модель диффузии сосредоточилась исключительно на «доработке» этих деталей с помощью остаточных токенов. А поскольку модель уже выполнила большую часть работы с помощью авторегрессии, ей требуется всего 8 этапов обработки вместо более чем 30, как раньше.
«Диффузионную модель проще реализовать, а значит, она более эффективна», — пояснил соавтор Хаотянь Тан.
В частности, сочетание авторегрессионной модели с 700 миллионами параметров и модели мягкой диффузии с 37 миллионами параметров позволяет HART достичь производительности, сравнимой с моделью диффузии с числом параметров до 2 миллиардов, но при этом работать в девять раз быстрее.
Первоначально исследовательская группа также пыталась интегрировать модель диффузии на ранних этапах процесса создания изображения, но это привело к накоплению ошибок. Наиболее эффективный подход заключается в том, чтобы позволить модели диффузии обрабатывать заключительный этап и сосредоточиться только на «недостающих» частях изображения.
Раскрывая будущее мультимедийного искусственного интеллекта.
Следующим шагом исследовательской группы станет создание моделей компьютерного зрения на основе искусственного интеллекта — языка следующего поколения, базирующегося на архитектуре HART. Поскольку HART масштабируем и адаптируется ко многим типам данных (мультимодальным), они рассчитывают применить его в создании видео , прогнозировании звука и многих других областях.
Данное исследование финансировалось несколькими организациями, включая лабораторию MIT-IBM Watson AI, научный центр MIT-Amazon, программу MIT AI Hardware Program и Национальный научный фонд США. Компания NVIDIA также предоставила инфраструктуру GPU для обучения модели.
(По данным MIT News)
Источник: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Комментарий (0)