Vietnam.vn - Nền tảng quảng bá Việt Nam

Новый инструмент на основе искусственного интеллекта создает высококачественные изображения в 9 раз быстрее.

Ученые из Массачусетского технологического института и компании NVIDIA успешно разработали HART — инструмент для создания высококачественных изображений с исключительно высокой скоростью, потребляющий при этом так мало ресурсов, что может работать непосредственно на ноутбуках или смартфонах.

VietNamNetVietNamNet26/03/2025

anh1.jpg

Изображение астронавта верхом на лошади было создано путем объединения двух типов моделей, сгенерированных искусственным интеллектом. Фото: MIT News


Когда скорость и качество перестают быть предметом компромисса.

В области создания изображений с помощью искусственного интеллекта в настоящее время существуют два основных метода:

Диффузионные модели позволяют создавать детализированные, четкие изображения. Однако они очень медленны и потребляют много вычислительных ресурсов, поскольку требуют десятков этапов обработки для удаления шума из каждого пикселя.

Авторегрессионные модели, с другой стороны, намного быстрее, поскольку они могут прогнозировать небольшие участки изображения последовательно. Однако они часто создают изображения с меньшей детализацией и подвержены ошибкам.

HART (гибридный авторегрессивный трансформер) сочетает в себе оба подхода, предлагая «лучшее из обоих миров». Сначала он использует авторегрессивную модель для построения общего изображения путем кодирования его в дискретные токены. Затем слегка диффузная модель дополнительно обрабатывает изображение, добавляя остаточные токены — детали, потерянные в процессе кодирования.

В результате получаются изображения, сопоставимые (или превосходящие) по качеству с самыми передовыми моделями диффузии, но обработка происходит в девять раз быстрее и использует на 31% меньше вычислительных ресурсов.

Этот новый подход помогает создавать высококачественные изображения с высокой скоростью.

Одним из важных нововведений HART является подход к решению проблемы потери информации при использовании авторегрессионных моделей. Преобразование изображений в дискретные токены ускоряет процесс, но также приводит к потере важных деталей, таких как контуры объектов, черты лица, волосы, глаза и рот.

Решение HART заключается в том, чтобы модель диффузии сосредоточилась исключительно на «доработке» этих деталей с помощью остаточных токенов. А поскольку модель уже выполнила большую часть работы с помощью авторегрессии, ей требуется всего 8 этапов обработки вместо более чем 30, как раньше.

«Диффузионную модель проще реализовать, а значит, она более эффективна», — пояснил соавтор Хаотянь Тан.

В частности, сочетание авторегрессионной модели с 700 миллионами параметров и модели мягкой диффузии с 37 миллионами параметров позволяет HART достичь производительности, сравнимой с моделью диффузии с числом параметров до 2 миллиардов, но при этом работать в девять раз быстрее.

Первоначально исследовательская группа также пыталась интегрировать модель диффузии на ранних этапах процесса создания изображения, но это привело к накоплению ошибок. Наиболее эффективный подход заключается в том, чтобы позволить модели диффузии обрабатывать заключительный этап и сосредоточиться только на «недостающих» частях изображения.

Раскрывая будущее мультимедийного искусственного интеллекта.

Следующим шагом исследовательской группы станет создание моделей компьютерного зрения на основе искусственного интеллекта — языка следующего поколения, базирующегося на архитектуре HART. Поскольку HART масштабируем и адаптируется ко многим типам данных (мультимодальным), они рассчитывают применить его в создании видео , прогнозировании звука и многих других областях.

Данное исследование финансировалось несколькими организациями, включая лабораторию MIT-IBM Watson AI, научный центр MIT-Amazon, программу MIT AI Hardware Program и Национальный научный фонд США. Компания NVIDIA также предоставила инфраструктуру GPU для обучения модели.

(По данным MIT News)


Источник: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Комментарий (0)

Оставьте комментарий, чтобы поделиться своими чувствами!

Та же тема

Та же категория

Тот же автор

Наследство

Фигура

Предприятия

Актуальные события

Политическая система

Местный

Продукт

Happy Vietnam
Глаза

Глаза

Женщина из рыбацкой деревни

Женщина из рыбацкой деревни

Мир в глазах ребенка

Мир в глазах ребенка