Vietnam.vn - Nền tảng quảng bá Việt Nam

Nueva herramienta de IA crea fotos de alta calidad, 9 veces más rápido

Científicos del MIT y NVIDIA han desarrollado con éxito HART, una herramienta que crea imágenes de alta calidad a una velocidad excepcionalmente rápida y consume tan pocos recursos que puede ejecutarse directamente en un ordenador portátil o un teléfono inteligente.

VietNamNetVietNamNet26/03/2025

imagen 1.jpg

Esta imagen de un astronauta a caballo se creó utilizando dos tipos de modelos de IA generativa. Foto: MIT News


Cuando la velocidad y la calidad ya no son un compromiso

En el campo de la obtención de imágenes con IA, actualmente existen dos enfoques principales:

Los modelos de difusión permiten obtener imágenes nítidas y detalladas. Sin embargo, son lentos y requieren un alto consumo computacional, ya que requieren decenas de pasos de procesamiento para eliminar el ruido de cada píxel.

Los modelos autorregresivos son mucho más rápidos porque predicen pequeñas partes de una imagen secuencialmente. Sin embargo, suelen producir imágenes con menos detalle y son propensos a errores.

HART (transformador autorregresivo híbrido) combina ambos, ofreciendo lo mejor de ambos mundos. Primero, utiliza un modelo autorregresivo para construir la imagen general, codificándola en tokens discretos. A continuación, un modelo de difusión ligero se encarga de completar los tokens residuales: la información detallada que se pierde durante la codificación.

Las imágenes resultantes son de una calidad comparable (o mejor) a la de los modelos de difusión de última generación, pero son 9 veces más rápidas de procesar y utilizan un 31% menos de recursos computacionales.

Nuevo enfoque para crear imágenes de calidad a alta velocidad

Una de las innovaciones notables de HART es cómo resuelve el problema de la pérdida de información al usar modelos autorregresivos. La conversión de imágenes en tokens discretos acelera el proceso, pero también pierde detalles importantes como los bordes de los objetos, los rasgos faciales, el cabello, los ojos, la boca, etc.

La solución de HART consiste en que el modelo de difusión se centre únicamente en corregir estos detalles mediante tokens residuales. Y dado que el modelo autorregresivo ya ha realizado la mayor parte del trabajo, el modelo de difusión solo necesita 8 pasos de procesamiento en lugar de los más de 30 que solía necesitar.

"El modelo de difusión es más fácil de implementar, lo que conduce a una mayor eficiencia", explica el coautor Haotian Tang.

En concreto, la combinación de un modelo de transformador autorregresivo con 700 millones de parámetros y un modelo de difusión ligero con 37 millones de parámetros proporciona a HART el mismo rendimiento que un modelo de difusión con hasta 2 mil millones de parámetros, pero nueve veces más rápido.

Inicialmente, el equipo intentó integrar el modelo de difusión en las primeras etapas del proceso de generación de imágenes, pero esto provocó una acumulación de errores. El enfoque más eficaz fue dejar que el modelo de difusión se encargara del paso final y centrarse únicamente en las partes faltantes de la imagen.

Desbloqueando el futuro de la IA multimedia

El siguiente paso del equipo es construir modelos de IA visual-lingüística de última generación basados en la arquitectura HART. Dado que HART es escalable y adaptable a una amplia gama de tipos de datos (multimodal), esperan poder aplicarlo a la generación de video , la predicción de audio y muchas otras áreas.

Esta investigación fue financiada por varias organizaciones, entre ellas el Laboratorio de IA Watson del MIT-IBM, el Centro de Ciencias del MIT-Amazon, el Programa de Hardware de IA del MIT y la Fundación Nacional de Ciencias de EE. UU. NVIDIA también donó infraestructura de GPU para entrenar el modelo.

(Según MIT News)


Fuente: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

No data
No data
La poderosa formación de 5 cazas SU-30MK2 se prepara para la ceremonia A80
Misiles S-300PMU1 en servicio de combate para proteger el cielo de Hanoi
La temporada de floración del loto atrae a turistas a las majestuosas montañas y ríos de Ninh Binh.
Cu Lao Mai Nha: Donde lo salvaje, lo majestuoso y la paz se fusionan
Hanoi se ve extraño antes de que la tormenta Wipha toque tierra
Perdido en el mundo salvaje en el jardín de aves de Ninh Binh
Los campos en terrazas de Pu Luong en la temporada de lluvias son de una belleza impresionante.
Las alfombras asfálticas 'corren' en la autopista Norte-Sur a través de Gia Lai
PIEZAS DE TONO - Piezas de Tono
Escena mágica en la colina del té "cuenco al revés" en Phu Tho

Herencia

Cifra

Negocio

No videos available

Noticias

Sistema político

Local

Producto