Esta imagem de um astronauta montando um cavalo foi criada usando dois tipos de modelos generativos de IA. Foto: MIT News
Quando velocidade e qualidade deixam de ser uma questão de escolha entre si.
No campo da inteligência artificial em imagens, existem atualmente duas abordagens principais:
Os modelos de difusão permitem obter imagens nítidas e detalhadas. No entanto, são lentos e computacionalmente dispendiosos, exigindo dezenas de etapas de processamento para remover o ruído de cada pixel.
Os modelos autorregressivos são muito mais rápidos porque predizem pequenas partes de uma imagem sequencialmente. Mas, frequentemente, produzem imagens com menos detalhes e são propensos a erros.
O HART (transformador autorregressivo híbrido) combina os dois, oferecendo o "melhor dos dois mundos". Primeiro, ele usa um modelo autorregressivo para construir a imagem geral, codificando-a em tokens discretos. Em seguida, um modelo de difusão leve entra em ação para preencher os tokens residuais – as informações detalhadas perdidas durante a codificação.
As imagens resultantes têm qualidade comparável (ou superior) aos modelos de difusão mais modernos, mas são processadas 9 vezes mais rápido e utilizam 31% menos recursos computacionais.
Nova abordagem para criar imagens de alta qualidade em alta velocidade.
Uma das inovações notáveis do HART é a forma como ele resolve o problema da perda de informação ao usar modelos autorregressivos. Converter imagens em tokens discretos acelera o processo, mas também resulta na perda de detalhes importantes, como bordas de objetos, características faciais, cabelo, olhos, boca, etc.
A solução de HART consiste em fazer com que o modelo de difusão se concentre apenas em "corrigir" esses detalhes por meio de tokens residuais. E como o modelo autorregressivo já realizou a maior parte do trabalho, o modelo de difusão precisa de apenas 8 etapas de processamento, em vez das mais de 30 etapas necessárias anteriormente.
“O modelo de difusão é mais fácil de implementar, resultando em maior eficiência”, explica o coautor Haotian Tang.
Especificamente, a combinação de um modelo de transformador autorregressivo com 700 milhões de parâmetros e um modelo de difusão leve com 37 milhões de parâmetros confere ao HART o mesmo desempenho que um modelo de difusão com até 2 bilhões de parâmetros, porém 9 vezes mais rápido.
Inicialmente, a equipe também tentou integrar o modelo de difusão nos estágios iniciais do processo de geração de imagens, mas isso acumulou erros. A abordagem mais eficaz foi deixar o modelo de difusão lidar com a etapa final e focar apenas nas partes "faltantes" da imagem.
Abrindo caminho para o futuro da IA multimídia
O próximo passo da equipe é construir modelos de IA visual-linguística de última geração baseados na arquitetura HART. Como o HART é escalável e adaptável a uma ampla gama de tipos de dados (multimodal), eles esperam poder aplicá-lo à geração de vídeo , previsão de áudio e muitas outras áreas.
Esta pesquisa foi financiada por diversas organizações, incluindo o MIT-IBM Watson AI Lab, o MIT-Amazon Science Center, o MIT AI Hardware Program e a Fundação Nacional de Ciência dos EUA. A NVIDIA também doou infraestrutura de GPUs para treinar o modelo.
(De acordo com o MIT News)
Fonte: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Comentário (0)