Vietnam.vn - Nền tảng quảng bá Việt Nam

Nova ferramenta de IA cria fotos de alta qualidade, 9 vezes mais rápido.

Cientistas do MIT e da NVIDIA desenvolveram com sucesso o HART – uma ferramenta que cria imagens de alta qualidade a uma velocidade excepcionalmente rápida, consumindo tão poucos recursos que pode ser executada diretamente em um laptop ou smartphone.

VietNamNetVietNamNet26/03/2025

foto 1.jpg

Esta imagem de um astronauta montando um cavalo foi criada usando dois tipos de modelos generativos de IA. Foto: MIT News


Quando velocidade e qualidade deixam de ser uma questão de escolha entre si.

No campo da inteligência artificial em imagens, existem atualmente duas abordagens principais:

Os modelos de difusão permitem obter imagens nítidas e detalhadas. No entanto, são lentos e computacionalmente dispendiosos, exigindo dezenas de etapas de processamento para remover o ruído de cada pixel.

Os modelos autorregressivos são muito mais rápidos porque predizem pequenas partes de uma imagem sequencialmente. Mas, frequentemente, produzem imagens com menos detalhes e são propensos a erros.

O HART (transformador autorregressivo híbrido) combina os dois, oferecendo o "melhor dos dois mundos". Primeiro, ele usa um modelo autorregressivo para construir a imagem geral, codificando-a em tokens discretos. Em seguida, um modelo de difusão leve entra em ação para preencher os tokens residuais – as informações detalhadas perdidas durante a codificação.

As imagens resultantes têm qualidade comparável (ou superior) aos modelos de difusão mais modernos, mas são processadas 9 vezes mais rápido e utilizam 31% menos recursos computacionais.

Nova abordagem para criar imagens de alta qualidade em alta velocidade.

Uma das inovações notáveis ​​do HART é a forma como ele resolve o problema da perda de informação ao usar modelos autorregressivos. Converter imagens em tokens discretos acelera o processo, mas também resulta na perda de detalhes importantes, como bordas de objetos, características faciais, cabelo, olhos, boca, etc.

A solução de HART consiste em fazer com que o modelo de difusão se concentre apenas em "corrigir" esses detalhes por meio de tokens residuais. E como o modelo autorregressivo já realizou a maior parte do trabalho, o modelo de difusão precisa de apenas 8 etapas de processamento, em vez das mais de 30 etapas necessárias anteriormente.

“O modelo de difusão é mais fácil de implementar, resultando em maior eficiência”, explica o coautor Haotian Tang.

Especificamente, a combinação de um modelo de transformador autorregressivo com 700 milhões de parâmetros e um modelo de difusão leve com 37 milhões de parâmetros confere ao HART o mesmo desempenho que um modelo de difusão com até 2 bilhões de parâmetros, porém 9 vezes mais rápido.

Inicialmente, a equipe também tentou integrar o modelo de difusão nos estágios iniciais do processo de geração de imagens, mas isso acumulou erros. A abordagem mais eficaz foi deixar o modelo de difusão lidar com a etapa final e focar apenas nas partes "faltantes" da imagem.

Abrindo caminho para o futuro da IA ​​multimídia

O próximo passo da equipe é construir modelos de IA visual-linguística de última geração baseados na arquitetura HART. Como o HART é escalável e adaptável a uma ampla gama de tipos de dados (multimodal), eles esperam poder aplicá-lo à geração de vídeo , previsão de áudio e muitas outras áreas.

Esta pesquisa foi financiada por diversas organizações, incluindo o MIT-IBM Watson AI Lab, o MIT-Amazon Science Center, o MIT AI Hardware Program e a Fundação Nacional de Ciência dos EUA. A NVIDIA também doou infraestrutura de GPUs para treinar o modelo.

(De acordo com o MIT News)


Fonte: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Comentário (0)

Deixe um comentário para compartilhar seus sentimentos!

No mesmo tópico

Na mesma categoria

A Catedral de Notre Dame, na cidade de Ho Chi Minh, está brilhantemente iluminada para dar as boas-vindas ao Natal de 2025.
As jovens de Hanói se vestem lindamente para a época natalina.
Após a tempestade e a inundação, a vila de crisântemos de Tet, em Gia Lai, se recuperou e espera que não haja mais cortes de energia para salvar as plantas.
A capital do damasco amarelo, na região central, sofreu grandes perdas após dois desastres naturais.

Do mesmo autor

Herança

Figura

Negócios

Cafeteria em Dalat registra aumento de 300% na clientela após dono interpretar papel em filme de artes marciais

Acontecimentos atuais

Sistema político

Local

Produto

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC