
Das Bild des Astronauten auf einem Pferd entstand durch die Kombination zweier Arten von KI-generierten Modellen. Foto: MIT News
Wenn Geschwindigkeit und Qualität kein Widerspruch mehr sind.
Im Bereich der KI-gestützten Bilderzeugung gibt es derzeit zwei Hauptmethoden:
Diffusionsmodelle ermöglichen die Erzeugung detaillierter, scharfer Bilder. Allerdings sind sie sehr langsam und rechenintensiv, da sie Dutzende von Verarbeitungsschritten benötigen, um das Rauschen aus jedem Pixel zu entfernen.
Autoregressive Modelle sind hingegen deutlich schneller, da sie kleine Bildausschnitte nacheinander vorhersagen können. Allerdings liefern sie oft detailärmere Bilder und sind fehleranfällig.
HART (Hybrid Autoregressive Transformer) vereint beide Ansätze und bietet so „das Beste aus beiden Welten“. Zunächst verwendet es ein autoregressives Modell, um das Gesamtbild durch Kodierung in diskrete Token zu erstellen. Anschließend verarbeitet ein leicht diffuses Modell die Daten weiter, um Rest-Token – Details, die während des Kodierungsprozesses verloren gegangen sind – hinzuzufügen.
Das Ergebnis sind Bilder von vergleichbarer (oder sogar besserer) Qualität als die modernsten Diffusionsmodelle, die Verarbeitung ist jedoch neunmal schneller und benötigt 31 % weniger Rechenressourcen.
Dieser neue Ansatz trägt dazu bei, qualitativ hochwertige Bilder in hoher Geschwindigkeit zu erzeugen.
Eine der bemerkenswertesten Innovationen von HART ist der Umgang mit Informationsverlusten bei der Verwendung autoregressiver Modelle. Die Umwandlung von Bildern in diskrete Token beschleunigt zwar den Prozess, führt aber auch zum Verlust wichtiger Details wie Objektkonturen, Gesichtszüge, Haare, Augen und Mund.
Die Lösung von HART besteht darin, dass sich das Diffusionsmodell ausschließlich darauf konzentriert, diese Details mithilfe von Resttoken zu ergänzen. Da das Modell bereits den Großteil der Arbeit durch Autoregression erledigt hat, benötigt das Diffusionsmodell nur noch 8 Verarbeitungsschritte anstatt der zuvor über 30.
„Das Diffusionsmodell ist einfacher umzusetzen und daher effektiver“, erklärte Mitautor Haotian Tang.
Genauer gesagt ermöglicht die Kombination eines autoregressiven Transformer-Modells mit 700 Millionen Parametern und eines milden Diffusionsmodells mit 37 Millionen Parametern HART, eine mit einem Diffusionsmodell mit bis zu 2 Milliarden Parametern vergleichbare Leistung zu erzielen, jedoch neunmal schneller.
Anfangs versuchte das Forschungsteam auch, das Diffusionsmodell in die frühen Phasen der Bildgenerierung zu integrieren, was jedoch zu einer Anhäufung von Fehlern führte. Der effektivste Ansatz besteht darin, das Diffusionsmodell den letzten Schritt durchführen zu lassen und sich nur auf die „fehlenden“ Bildteile zu konzentrieren.
Die Zukunft der Multimedia-KI erschließen.
Der nächste Schritt des Forschungsteams ist die Entwicklung von KI-Visionmodellen – einer Programmiersprache der nächsten Generation, die auf der HART-Architektur basiert. Da HART skalierbar und an viele Datentypen anpassbar (multimodal) ist, erwarten sie, sie in der Videoerstellung , der Audiovorhersage und vielen anderen Bereichen einsetzen zu können.
Diese Forschungsarbeit wurde von mehreren Organisationen finanziert, darunter das MIT-IBM Watson AI Lab, das MIT-Amazon Science Center, das MIT AI Hardware Program und die U.S. National Science Foundation. NVIDIA stellte außerdem die GPU-Infrastruktur für das Training des Modells bereit.
(Laut MIT News)
Quelle: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Kommentar (0)