Vietnam.vn - Nền tảng quảng bá Việt Nam

Neues KI-Tool erstellt hochwertige Fotos, 9-mal schneller

Wissenschaftlern vom MIT und NVIDIA ist es gelungen, HART zu entwickeln – ein Tool, das qualitativ hochwertige Bilder mit außergewöhnlich hoher Geschwindigkeit erstellt und dabei so wenig Ressourcen verbraucht, dass es direkt auf einem Laptop oder Smartphone ausgeführt werden kann.

VietNamNetVietNamNet26/03/2025

Bild 1.jpg

Dieses Bild eines Astronauten auf einem Pferd wurde mithilfe zweier generativer KI-Modelle erstellt. Foto: MIT News


Wenn Geschwindigkeit und Qualität keine Kompromisse mehr darstellen

Im Bereich der KI-Bildgebung gibt es derzeit zwei Hauptansätze:

Diffusionsmodelle ermöglichen scharfe, detaillierte Bilder. Sie sind jedoch langsam und rechenintensiv. Um das Rauschen aus jedem Pixel zu entfernen, sind Dutzende von Verarbeitungsschritten erforderlich.

Autoregressive Modelle sind deutlich schneller, da sie kleine Bildteile sequenziell vorhersagen. Allerdings erzeugen sie oft weniger detaillierte Bilder und sind fehleranfällig.

HART (Hybrid Autoregressive Transformer) kombiniert beides und bietet das Beste aus beiden Welten. Zunächst wird ein autoregressives Modell verwendet, um das Gesamtbild zu konstruieren, indem es in diskrete Token kodiert wird. Anschließend übernimmt ein leichtes Diffusionsmodell die Aufgabe, die verbleibenden Token zu ergänzen – die detaillierten Informationen, die bei der Kodierung verloren gegangen sind.

Die resultierenden Bilder weisen eine vergleichbare (oder bessere) Qualität wie modernste Diffusionsmodelle auf, sind jedoch neunmal schneller zu verarbeiten und verbrauchen 31 % weniger Rechenressourcen.

Neuer Ansatz zur Erstellung hochwertiger Bilder bei hoher Geschwindigkeit

Eine der bemerkenswerten Innovationen von HART ist die Lösung des Problems des Informationsverlusts bei der Verwendung autoregressiver Modelle. Die Konvertierung von Bildern in diskrete Token beschleunigt den Prozess, geht aber auch wichtige Details wie Objektkanten, Gesichtszüge, Haare, Augen, Münder usw. verloren.

Die Lösung von HART besteht darin, dass sich das Diffusionsmodell nur auf das „Ausbessern“ dieser Details durch Residual-Token konzentriert. Da das autoregressive Modell den Großteil der Arbeit bereits erledigt hat, benötigt das Diffusionsmodell nur noch 8 Verarbeitungsschritte statt der über 30 Schritte, die es früher benötigte.

„Das Diffusionsmodell ist einfacher zu implementieren und führt zu einer höheren Effizienz“, erklärt Co-Autor Haotian Tang.

Insbesondere die Kombination eines autoregressiven Transformatormodells mit 700 Millionen Parametern und eines leichten Diffusionsmodells mit 37 Millionen Parametern verleiht HART die gleiche Leistung wie ein Diffusionsmodell mit bis zu 2 Milliarden Parametern, ist jedoch neunmal schneller.

Das Team versuchte zunächst, das Diffusionsmodell in die frühen Phasen des Bilderzeugungsprozesses zu integrieren. Dies führte jedoch zu einer Häufung von Fehlern. Der effektivste Ansatz bestand darin, das Diffusionsmodell den letzten Schritt übernehmen zu lassen und sich nur auf die „fehlenden“ Bildteile zu konzentrieren.

Die Zukunft der Multimedia-KI erschließen

Der nächste Schritt des Teams ist die Entwicklung visuell-linguistischer KI-Modelle der nächsten Generation auf Basis der HART-Architektur. Da HART skalierbar und an eine Vielzahl von Datentypen anpassbar (multimodal) ist, erwartet das Team, es in der Videogenerierung , der Audiovorhersage und vielen weiteren Bereichen einsetzen zu können.

Diese Forschung wurde von mehreren Organisationen finanziert, darunter dem MIT-IBM Watson AI Lab, dem MIT-Amazon Science Center, dem MIT AI Hardware Program und der US National Science Foundation. NVIDIA spendete außerdem GPU-Infrastruktur zum Trainieren des Modells.

(Laut MIT News)


Quelle: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

No data
No data
Die mächtige Formation von 5 SU-30MK2-Kampfflugzeugen bereitet sich auf die A80-Zeremonie vor
S-300PMU1-Raketen im Kampfeinsatz zum Schutz des Himmels über Hanoi
Die Lotusblütezeit lockt Touristen in die majestätischen Berge und Flüsse von Ninh Binh
Cu Lao Mai Nha: Wo Wildheit, Majestät und Frieden miteinander verschmelzen
Hanoi ist seltsam, bevor Sturm Wipha Land erreicht
Verloren in der wilden Welt im Vogelgarten in Ninh Binh
Die Terrassenfelder von Pu Luong sind in der Regenzeit atemberaubend schön
Asphaltteppiche auf der Nord-Süd-Autobahn durch Gia Lai
STÜCKE von HUE - Stücke von Hue
Magische Szene auf dem „umgedrehten Teehügel“ in Phu Tho

Erbe

Figur

Geschäft

No videos available

Nachricht

Politisches System

Lokal

Produkt