Nova ferramenta de IA cria fotos de alta qualidade, 9 vezes mais rápido.

foto 1.jpg

Esta imagem de um astronauta montando um cavalo foi criada usando dois tipos de modelos generativos de IA. Foto: MIT News

Quando velocidade e qualidade deixam de ser uma questão de escolha entre si.

No campo da inteligência artificial em imagens, existem atualmente duas abordagens principais:

Os modelos de difusão permitem obter imagens nítidas e detalhadas. No entanto, são lentos e computacionalmente dispendiosos, exigindo dezenas de etapas de processamento para remover o ruído de cada pixel.

Os modelos autorregressivos são muito mais rápidos porque predizem pequenas partes de uma imagem sequencialmente. Mas, frequentemente, produzem imagens com menos detalhes e são propensos a erros.

O HART (transformador autorregressivo híbrido) combina os dois, oferecendo o "melhor dos dois mundos". Primeiro, ele usa um modelo autorregressivo para construir a imagem geral, codificando-a em tokens discretos. Em seguida, um modelo de difusão leve entra em ação para preencher os tokens residuais – as informações detalhadas perdidas durante a codificação.

As imagens resultantes têm qualidade comparável (ou superior) aos modelos de difusão mais modernos, mas são processadas 9 vezes mais rápido e utilizam 31% menos recursos computacionais.

Nova abordagem para criar imagens de alta qualidade em alta velocidade.

Uma das inovações notáveis do HART é a forma como ele resolve o problema da perda de informação ao usar modelos autorregressivos. Converter imagens em tokens discretos acelera o processo, mas também resulta na perda de detalhes importantes, como bordas de objetos, características faciais, cabelo, olhos, boca, etc.

A solução de HART consiste em fazer com que o modelo de difusão se concentre apenas em "corrigir" esses detalhes por meio de tokens residuais. E como o modelo autorregressivo já realizou a maior parte do trabalho, o modelo de difusão precisa de apenas 8 etapas de processamento, em vez das mais de 30 etapas necessárias anteriormente.

“O modelo de difusão é mais fácil de implementar, resultando em maior eficiência”, explica o coautor Haotian Tang.

Especificamente, a combinação de um modelo de transformador autorregressivo com 700 milhões de parâmetros e um modelo de difusão leve com 37 milhões de parâmetros confere ao HART o mesmo desempenho que um modelo de difusão com até 2 bilhões de parâmetros, porém 9 vezes mais rápido.

Inicialmente, a equipe também tentou integrar o modelo de difusão nos estágios iniciais do processo de geração de imagens, mas isso acumulou erros. A abordagem mais eficaz foi deixar o modelo de difusão lidar com a etapa final e focar apenas nas partes "faltantes" da imagem.

Abrindo caminho para o futuro da IA multimídia

O próximo passo da equipe é construir modelos de IA visual-linguística de última geração baseados na arquitetura HART. Como o HART é escalável e adaptável a uma ampla gama de tipos de dados (multimodal), eles esperam poder aplicá-lo à geração de vídeo , previsão de áudio e muitas outras áreas.

Esta pesquisa foi financiada por diversas organizações, incluindo o MIT-IBM Watson AI Lab, o MIT-Amazon Science Center, o MIT AI Hardware Program e a Fundação Nacional de Ciência dos EUA. A NVIDIA também doou infraestrutura de GPUs para treinar o modelo.

(De acordo com o MIT News)

Fonte: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html

Tópico: QUEM inteligência artificial

Comentário (0)

[Foto] 60º aniversário da fundação da Associação Vietnamita de Artistas Fotográficos

No mesmo tópico

A inteligência artificial dominará o mercado de ações até 2026.

Đài truyền hình Việt Nam

3 giờ trước

O que acontece quando o sucesso de um artista é copiado por inteligência artificial para competir?

Người Lao Động

3 giờ trước

Os bancos promovem a digitalização, reduzindo o tempo de processamento de dados em até 5 vezes.

Tạp chí Doanh Nghiệp

3 giờ trước

Um conjunto unificado de livros didáticos: não significa eliminar a diversidade.

Báo Dân trí

5 giờ trước

Projetos tecnológicos com valor superior a 6 trilhões de VND podem ter seu período de isenção e redução de impostos prorrogado.

Người Lao Động

6 giờ trước

"A Prensa Latina e a VNA têm grande potencial para expandir a cooperação."

VietnamPlus

11 giờ trước

Na mesma categoria

O Concurso de IA do Vietnã 2025 busca transformar a IA de uma tecnologia em valor humanístico.

VietNamNet

04/12/2025

O Zalo AI Summit 2025 reúne os principais especialistas em inteligência artificial.

VietNamNet

03/12/2025

Concurso de IA do Vietnã 2025: O que você precisa saber sobre a Rodada Final de Apresentação ao Vivo

VietNamNet

03/12/2025

O Vietnã molda sua estratégia de IA com foco no humanismo e na segurança.

Báo Lao Động

03/12/2025

O Vietnã anunciará uma estratégia atualizada de IA e uma lei de IA até o final de 2025.

Báo Tuổi Trẻ

02/12/2025

61% dos vietnamitas temem perder seus empregos ou não conseguir encontrar trabalho devido à IA (Inteligência Artificial).

VietNamNet

02/12/2025

A Catedral de Notre Dame, na cidade de Ho Chi Minh, está brilhantemente iluminada para dar as boas-vindas ao Natal de 2025.

As jovens de Hanói se vestem lindamente para a época natalina.

Após a tempestade e a inundação, a vila de crisântemos de Tet, em Gia Lai, se recuperou e espera que não haja mais cortes de energia para salvar as plantas.