Vietnam.vn - Nền tảng quảng bá Việt Nam

Una nueva herramienta de IA crea imágenes de alta calidad 9 veces más rápido.

Científicos del MIT y NVIDIA han desarrollado con éxito HART, una herramienta para crear imágenes de alta calidad a velocidades excepcionalmente rápidas, consumiendo tan pocos recursos que puede ejecutarse directamente en ordenadores portátiles o teléfonos inteligentes.

VietNamNetVietNamNet26/03/2025

anh1.jpg

La imagen del astronauta montando a caballo se creó combinando dos tipos de modelos generados por inteligencia artificial. Foto: MIT News


Cuando la velocidad y la calidad ya no son incompatibles.

En el campo de la creación de imágenes mediante inteligencia artificial, actualmente existen dos métodos principales:

Los modelos de difusión permiten crear imágenes nítidas y detalladas. Sin embargo, son muy lentos y consumen muchos recursos computacionales, ya que requieren docenas de pasos de procesamiento para eliminar el ruido de cada píxel.

Por otro lado, los modelos autorregresivos son mucho más rápidos porque pueden predecir pequeñas partes de una imagen de forma secuencial. Sin embargo, suelen producir imágenes con menos detalle y son propensos a errores.

HART (transformador autorregresivo híbrido) combina ambos enfoques, ofreciendo lo mejor de ambos mundos. Primero, utiliza un modelo autorregresivo para construir la imagen general codificándola en tokens discretos. Luego, un modelo ligeramente difuso procesa la imagen para añadir tokens residuales: detalles que se perdieron durante el proceso de codificación.

El resultado son imágenes de calidad comparable (o superior) a las de los modelos de difusión más avanzados, pero el procesamiento es nueve veces más rápido y utiliza un 31 % menos de recursos informáticos.

Este nuevo enfoque ayuda a crear imágenes de alta calidad a gran velocidad.

Una de las innovaciones más destacadas de HART es cómo aborda el problema de la pérdida de información al utilizar modelos autorregresivos. Convertir las imágenes en tokens discretos acelera el proceso, pero también conlleva la pérdida de detalles importantes como los contornos de los objetos, los rasgos faciales, el cabello, los ojos y la boca.

La solución de HART consiste en que el modelo de difusión se centre exclusivamente en "corregir" estos detalles utilizando tokens residuales. Y dado que el modelo ya ha realizado la mayor parte del trabajo mediante autorregresión, el modelo de difusión solo necesita 8 pasos de procesamiento en lugar de los más de 30 que requería anteriormente.

"El modelo de difusión es más fácil de implementar y, por lo tanto, más eficaz", explicó el coautor Haotian Tang.

En concreto, la combinación de un modelo transformador autorregresivo con 700 millones de parámetros y un modelo de difusión suave con 37 millones de parámetros permite a HART alcanzar un rendimiento comparable al de un modelo de difusión con hasta 2.000 millones de parámetros, pero nueve veces más rápido.

Inicialmente, el equipo de investigación también intentó integrar el modelo de difusión en las primeras etapas del proceso de creación de imágenes, pero esto generó una acumulación de errores. El enfoque más eficaz consiste en dejar que el modelo de difusión se encargue del paso final y centrarse únicamente en las partes "faltantes" de la imagen.

Desbloqueando el futuro de la IA multimedia.

El siguiente paso del equipo de investigación es desarrollar modelos de visión artificial: un lenguaje de última generación basado en la arquitectura HART. Dado que HART es escalable y adaptable a diversos tipos de datos (multimodal), esperan poder aplicarlo a la creación de vídeo , la predicción de audio y muchos otros campos.

Esta investigación fue financiada por diversas organizaciones, entre ellas el Laboratorio de IA MIT-IBM Watson, el Centro Científico MIT-Amazon, el Programa de Hardware de IA del MIT y la Fundación Nacional de Ciencias de Estados Unidos. NVIDIA también proporcionó la infraestructura de GPU para el entrenamiento del modelo.

(Según MIT News)


Fuente: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

¡Deja un comentario para compartir tus sentimientos!

Mismo tema

Misma categoría

Mismo autor

Herencia

Cifra

Empresas

Actualidad

Sistema político

Local

Producto

Happy Vietnam
¿Hacer hijo?: Una nueva imagen

¿Hacer hijo?: Una nueva imagen

Ojos

Ojos

Felicidad en el puerto

Felicidad en el puerto