Vietnam.vn - Nền tảng quảng bá Việt Nam

Neues KI-Tool erstellt qualitativ hochwertige Fotos, 9-mal schneller

Wissenschaftler des MIT und von NVIDIA haben HART erfolgreich entwickelt – ein Tool, das qualitativ hochwertige Bilder in außergewöhnlich kurzer Zeit erzeugt und dabei so wenige Ressourcen verbraucht, dass es direkt auf einem Laptop oder Smartphone ausgeführt werden kann.

VietNamNetVietNamNet26/03/2025

Foto 1.jpg

Dieses Bild eines Astronauten auf einem Pferd wurde mithilfe zweier Arten von generativen KI-Modellen erstellt. Foto: MIT News


Wenn Geschwindigkeit und Qualität kein Kompromiss mehr sind

Im Bereich der KI-Bildgebung gibt es derzeit zwei Hauptansätze:

Diffusionsmodelle ermöglichen scharfe, detailreiche Bilder. Allerdings sind sie langsam und rechenintensiv, da Dutzende von Verarbeitungsschritten erforderlich sind, um das Rauschen aus jedem Pixel zu entfernen.

Autoregressive Modelle sind deutlich schneller, da sie kleine Bildausschnitte nacheinander vorhersagen. Allerdings liefern sie oft Bilder mit weniger Details und sind fehleranfällig.

HART (Hybrid Autoregressive Transformer) kombiniert beide Ansätze und bietet so die Vorteile beider Methoden. Zunächst wird mithilfe eines autoregressiven Modells das Gesamtbild erstellt, indem es in diskrete Token kodiert wird. Anschließend übernimmt ein ressourcenschonendes Diffusionsmodell die Aufgabe, die verbleibenden Token – die während der Kodierung verloren gegangenen Detailinformationen – zu ergänzen.

Die resultierenden Bilder sind von vergleichbarer (oder besserer) Qualität wie moderne Diffusionsmodelle, lassen sich aber 9-mal schneller verarbeiten und benötigen 31 % weniger Rechenressourcen.

Neuer Ansatz zur Erstellung hochwertiger Bilder in hoher Geschwindigkeit

Eine der bemerkenswertesten Innovationen von HART ist die Lösung des Problems des Informationsverlusts bei der Verwendung autoregressiver Modelle. Die Umwandlung von Bildern in diskrete Token beschleunigt zwar den Prozess, führt aber auch zum Verlust wichtiger Details wie Objektkanten, Gesichtszüge, Haare, Augen, Münder usw.

Die Lösung von HART besteht darin, dass sich das Diffusionsmodell ausschließlich auf das „Ausbessern“ dieser Details mithilfe von Resttoken konzentriert. Da das autoregressive Modell bereits den Großteil der Arbeit erledigt hat, benötigt das Diffusionsmodell nur noch 8 Verarbeitungsschritte anstatt der zuvor über 30.

„Das Diffusionsmodell ist einfacher umzusetzen, was zu einer höheren Effizienz führt“, erklärt Mitautor Haotian Tang.

Genauer gesagt, die Kombination eines autoregressiven Transformer-Modells mit 700 Millionen Parametern und eines leichten Diffusionsmodells mit 37 Millionen Parametern verleiht HART die gleiche Leistung wie einem Diffusionsmodell mit bis zu 2 Milliarden Parametern, ist aber 9-mal schneller.

Anfangs versuchte das Team auch, das Diffusionsmodell in die frühen Phasen der Bildgenerierung zu integrieren, was jedoch zu einer Anhäufung von Fehlern führte. Der effektivste Ansatz bestand darin, das Diffusionsmodell den letzten Schritt durchführen zu lassen und sich nur auf die „fehlenden“ Bildteile zu konzentrieren.

Die Zukunft der Multimedia-KI eröffnen

Der nächste Schritt des Teams ist die Entwicklung von visuell-linguistischen KI-Modellen der nächsten Generation auf Basis der HART-Architektur. Da HART skalierbar und an eine Vielzahl von Datentypen anpassbar (multimodal) ist, erwarten sie, es für die Videogenerierung , die Audiovorhersage und viele weitere Bereiche einsetzen zu können.

Diese Forschungsarbeit wurde von verschiedenen Organisationen finanziert, darunter das MIT-IBM Watson AI Lab, das MIT-Amazon Science Center, das MIT AI Hardware Program und die US-amerikanische National Science Foundation. NVIDIA stellte außerdem GPU-Infrastruktur für das Training des Modells zur Verfügung.

(Laut MIT News)


Quelle: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Kommentar (0)

Hinterlasse einen Kommentar, um deine Gefühle zu teilen!

Gleiches Thema

Gleiche Kategorie

Die Notre-Dame-Kathedrale in Ho-Chi-Minh-Stadt erstrahlt im hellen Lichterglanz, um Weihnachten 2025 willkommen zu heißen.
Hanoi-Mädchen kleiden sich wunderschön für die Weihnachtszeit
Nach dem Sturm und der Überschwemmung erstrahlt das Tet-Chrysanthemendorf in Gia Lai wieder in neuem Glanz und hofft, dass es keine Stromausfälle geben wird, um die Pflanzen zu retten.
Die Hauptstadt des Anbaus gelber Aprikosen in der Zentralregion erlitt nach zwei Naturkatastrophen schwere Verluste.

Gleicher Autor

Erbe

Figur

Geschäft

Ein Café in Dalat verzeichnet einen Kundenzuwachs von 300 %, weil der Besitzer eine Rolle in einem „Kampfkunstfilm“ spielt.

Aktuelle Ereignisse

Politisches System

Lokal

Produkt

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC