Vietnam.vn - Nền tảng quảng bá Việt Nam

Nueva herramienta de IA crea fotos de alta calidad, 9 veces más rápido

Científicos del MIT y NVIDIA han desarrollado con éxito HART, una herramienta que crea imágenes de alta calidad a una velocidad excepcionalmente rápida y consume tan pocos recursos que puede ejecutarse directamente en un ordenador portátil o un teléfono inteligente.

VietNamNetVietNamNet26/03/2025

foto 1.jpg

Esta imagen de un astronauta a caballo se creó utilizando dos tipos de modelos de IA generativa. Foto: MIT News


Cuando la velocidad y la calidad ya no son un compromiso

En el campo de la obtención de imágenes mediante IA, actualmente existen dos enfoques principales:

Los modelos de difusión permiten obtener imágenes nítidas y detalladas. Sin embargo, son lentos y computacionalmente costosos, ya que requieren decenas de pasos de procesamiento para eliminar el ruido de cada píxel.

Los modelos autorregresivos son mucho más rápidos porque predicen pequeñas partes de una imagen secuencialmente. Sin embargo, suelen producir imágenes con menos detalle y son propensos a errores.

HART (transformador autorregresivo híbrido) combina ambos, ofreciendo lo mejor de ambos mundos. Primero, utiliza un modelo autorregresivo para construir la imagen general codificándola en tokens discretos. A continuación, un modelo de difusión ligero se encarga de completar los tokens residuales: la información detallada perdida durante la codificación.

Las imágenes resultantes son de una calidad comparable (o mejor) a la de los modelos de difusión de última generación, pero son 9 veces más rápidas de procesar y utilizan un 31% menos de recursos computacionales.

Nuevo enfoque para crear imágenes de calidad a alta velocidad

Una de las innovaciones notables de HART es cómo resuelve el problema de la pérdida de información al usar modelos autorregresivos. Convertir imágenes en tokens discretos acelera el proceso, pero también pierde detalles importantes como los bordes de los objetos, los rasgos faciales, el cabello, los ojos, la boca, etc.

La solución de HART consiste en que el modelo de difusión se centre únicamente en corregir estos detalles mediante tokens residuales. Y dado que el modelo autorregresivo ya ha realizado la mayor parte del trabajo, el modelo de difusión solo necesita 8 pasos de procesamiento en lugar de los más de 30 pasos anteriores.

"El modelo de difusión es más fácil de implementar, lo que conduce a una mayor eficiencia", explica el coautor Haotian Tang.

En concreto, la combinación de un modelo de transformador autorregresivo con 700 millones de parámetros y un modelo de difusión ligero con 37 millones de parámetros proporciona a HART el mismo rendimiento que un modelo de difusión con hasta 2 mil millones de parámetros, pero 9 veces más rápido.

Inicialmente, el equipo también intentó integrar el modelo de difusión en las primeras etapas del proceso de generación de imágenes, pero esto generó errores. El enfoque más eficaz fue dejar que el modelo de difusión se encargara del paso final y centrarse únicamente en las partes faltantes de la imagen.

Abriendo el futuro de la IA multimedia

El siguiente paso del equipo es construir modelos de IA visual-lingüística de última generación basados ​​en la arquitectura HART. Dado que HART es escalable y adaptable a una amplia gama de tipos de datos (multimodal), esperan poder aplicarlo a la generación de video , la predicción de audio y muchas otras áreas.

Esta investigación fue financiada por varias organizaciones, entre ellas el Laboratorio de IA Watson del MIT-IBM, el Centro de Ciencias del MIT-Amazon, el Programa de Hardware de IA del MIT y la Fundación Nacional de Ciencias de EE. UU. NVIDIA también donó infraestructura de GPU para entrenar el modelo.

(Según MIT News)


Fuente: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

¡Deja un comentario para compartir tus sentimientos!

Mismo tema

Misma categoría

La Catedral de Notre Dame en Ciudad Ho Chi Minh se iluminará para dar la bienvenida a la Navidad de 2025
Las niñas de Hanoi se visten de maravilla para la temporada navideña
Reanimados después de la tormenta y la inundación, el pueblo de crisantemos Tet en Gia Lai espera que no haya cortes de energía para salvar las plantas.
La capital del albaricoque amarillo en la región Central sufrió grandes pérdidas tras doble desastre natural.

Mismo autor

Herencia

Cifra

Negocio

La cafetería de Dalat ve un aumento del 300% en el número de clientes porque el propietario interpreta el papel de una "película de artes marciales"

Actualidad

Sistema político

Local

Producto

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC