Dieses Bild eines Astronauten auf einem Pferd wurde mithilfe zweier generativer KI-Modelle erstellt. Foto: MIT News
Wenn Geschwindigkeit und Qualität keine Kompromisse mehr darstellen
Im Bereich der KI-Bildgebung gibt es derzeit zwei Hauptansätze:
Diffusionsmodelle ermöglichen scharfe, detaillierte Bilder. Sie sind jedoch langsam und rechenintensiv. Um das Rauschen aus jedem Pixel zu entfernen, sind Dutzende von Verarbeitungsschritten erforderlich.
Autoregressive Modelle sind deutlich schneller, da sie kleine Bildteile sequenziell vorhersagen. Allerdings erzeugen sie oft weniger detaillierte Bilder und sind fehleranfällig.
HART (Hybrid Autoregressive Transformer) kombiniert beides und bietet das Beste aus beiden Welten. Zunächst wird ein autoregressives Modell verwendet, um das Gesamtbild zu konstruieren, indem es in diskrete Token kodiert wird. Anschließend übernimmt ein leichtes Diffusionsmodell die Aufgabe, die verbleibenden Token zu ergänzen – die detaillierten Informationen, die bei der Kodierung verloren gegangen sind.
Die resultierenden Bilder weisen eine vergleichbare (oder bessere) Qualität wie modernste Diffusionsmodelle auf, sind jedoch neunmal schneller zu verarbeiten und verbrauchen 31 % weniger Rechenressourcen.
Neuer Ansatz zur Erstellung hochwertiger Bilder bei hoher Geschwindigkeit
Eine der bemerkenswerten Innovationen von HART ist die Lösung des Problems des Informationsverlusts bei der Verwendung autoregressiver Modelle. Die Konvertierung von Bildern in diskrete Token beschleunigt den Prozess, geht aber auch wichtige Details wie Objektkanten, Gesichtszüge, Haare, Augen, Münder usw. verloren.
Die Lösung von HART besteht darin, dass sich das Diffusionsmodell nur auf das „Ausbessern“ dieser Details durch Residual-Token konzentriert. Da das autoregressive Modell den Großteil der Arbeit bereits erledigt hat, benötigt das Diffusionsmodell nur noch 8 Verarbeitungsschritte statt der über 30 Schritte, die es früher benötigte.
„Das Diffusionsmodell ist einfacher zu implementieren und führt zu einer höheren Effizienz“, erklärt Co-Autor Haotian Tang.
Insbesondere die Kombination eines autoregressiven Transformatormodells mit 700 Millionen Parametern und eines leichten Diffusionsmodells mit 37 Millionen Parametern verleiht HART die gleiche Leistung wie ein Diffusionsmodell mit bis zu 2 Milliarden Parametern, ist jedoch neunmal schneller.
Das Team versuchte zunächst, das Diffusionsmodell in die frühen Phasen des Bilderzeugungsprozesses zu integrieren. Dies führte jedoch zu einer Häufung von Fehlern. Der effektivste Ansatz bestand darin, das Diffusionsmodell den letzten Schritt übernehmen zu lassen und sich nur auf die „fehlenden“ Bildteile zu konzentrieren.
Die Zukunft der Multimedia-KI erschließen
Der nächste Schritt des Teams ist die Entwicklung visuell-linguistischer KI-Modelle der nächsten Generation auf Basis der HART-Architektur. Da HART skalierbar und an eine Vielzahl von Datentypen anpassbar (multimodal) ist, erwartet das Team, es in der Videogenerierung , der Audiovorhersage und vielen weiteren Bereichen einsetzen zu können.
Diese Forschung wurde von mehreren Organisationen finanziert, darunter dem MIT-IBM Watson AI Lab, dem MIT-Amazon Science Center, dem MIT AI Hardware Program und der US National Science Foundation. NVIDIA spendete außerdem GPU-Infrastruktur zum Trainieren des Modells.
(Laut MIT News)
Quelle: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Kommentar (0)