Esta imagen de un astronauta a caballo se creó utilizando dos tipos de modelos de IA generativa. Foto: MIT News
Cuando la velocidad y la calidad ya no son un compromiso
En el campo de la obtención de imágenes con IA, actualmente existen dos enfoques principales:
Los modelos de difusión permiten obtener imágenes nítidas y detalladas. Sin embargo, son lentos y requieren un alto consumo computacional, ya que requieren decenas de pasos de procesamiento para eliminar el ruido de cada píxel.
Los modelos autorregresivos son mucho más rápidos porque predicen pequeñas partes de una imagen secuencialmente. Sin embargo, suelen producir imágenes con menos detalle y son propensos a errores.
HART (transformador autorregresivo híbrido) combina ambos, ofreciendo lo mejor de ambos mundos. Primero, utiliza un modelo autorregresivo para construir la imagen general, codificándola en tokens discretos. A continuación, un modelo de difusión ligero se encarga de completar los tokens residuales: la información detallada que se pierde durante la codificación.
Las imágenes resultantes son de una calidad comparable (o mejor) a la de los modelos de difusión de última generación, pero son 9 veces más rápidas de procesar y utilizan un 31% menos de recursos computacionales.
Nuevo enfoque para crear imágenes de calidad a alta velocidad
Una de las innovaciones notables de HART es cómo resuelve el problema de la pérdida de información al usar modelos autorregresivos. La conversión de imágenes en tokens discretos acelera el proceso, pero también pierde detalles importantes como los bordes de los objetos, los rasgos faciales, el cabello, los ojos, la boca, etc.
La solución de HART consiste en que el modelo de difusión se centre únicamente en corregir estos detalles mediante tokens residuales. Y dado que el modelo autorregresivo ya ha realizado la mayor parte del trabajo, el modelo de difusión solo necesita 8 pasos de procesamiento en lugar de los más de 30 que solía necesitar.
"El modelo de difusión es más fácil de implementar, lo que conduce a una mayor eficiencia", explica el coautor Haotian Tang.
En concreto, la combinación de un modelo de transformador autorregresivo con 700 millones de parámetros y un modelo de difusión ligero con 37 millones de parámetros proporciona a HART el mismo rendimiento que un modelo de difusión con hasta 2 mil millones de parámetros, pero nueve veces más rápido.
Inicialmente, el equipo intentó integrar el modelo de difusión en las primeras etapas del proceso de generación de imágenes, pero esto provocó una acumulación de errores. El enfoque más eficaz fue dejar que el modelo de difusión se encargara del paso final y centrarse únicamente en las partes faltantes de la imagen.
Desbloqueando el futuro de la IA multimedia
El siguiente paso del equipo es construir modelos de IA visual-lingüística de última generación basados en la arquitectura HART. Dado que HART es escalable y adaptable a una amplia gama de tipos de datos (multimodal), esperan poder aplicarlo a la generación de video , la predicción de audio y muchas otras áreas.
Esta investigación fue financiada por varias organizaciones, entre ellas el Laboratorio de IA Watson del MIT-IBM, el Centro de Ciencias del MIT-Amazon, el Programa de Hardware de IA del MIT y la Fundación Nacional de Ciencias de EE. UU. NVIDIA también donó infraestructura de GPU para entrenar el modelo.
(Según MIT News)
Fuente: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Kommentar (0)