To zdjęcie astronauty jadącego na koniu zostało stworzone przy użyciu dwóch typów generatywnych modeli sztucznej inteligencji. Zdjęcie: MIT News
Kiedy prędkość i jakość nie są już kompromisem
W dziedzinie obrazowania AI obecnie istnieją dwa główne podejścia:
Modele dyfuzyjne pozwalają na uzyskanie ostrych i szczegółowych obrazów. Są jednak powolne i kosztowne obliczeniowo, wymagając dziesiątek kroków przetwarzania, aby usunąć szum z każdego piksela.
Modele autoregresyjne są znacznie szybsze, ponieważ przewidują sekwencyjnie małe fragmenty obrazu. Często jednak generują obrazy o mniejszej szczegółowości i są podatne na błędy.
HART (hybrydowy transformator autoregresyjny) łączy te dwa rozwiązania, zapewniając „to, co najlepsze z obu światów”. Najpierw wykorzystuje model autoregresyjny do zbudowania ogólnego obrazu poprzez zakodowanie go w dyskretnych tokenach. Następnie lekki model dyfuzyjny przejmuje kontrolę, aby uzupełnić tokeny resztkowe – szczegółowe informacje utracone podczas kodowania.
Otrzymane obrazy mają jakość porównywalną (lub lepszą) do obrazów uzyskanych przy użyciu najnowocześniejszych modeli dyfuzji, ale są 9 razy szybsze w przetwarzaniu i wymagają o 31% mniej zasobów obliczeniowych.
Nowe podejście do tworzenia wysokiej jakości obrazów z dużą prędkością
Jedną z istotnych innowacji HART jest sposób, w jaki rozwiązuje on problem utraty informacji podczas korzystania z modeli autoregresyjnych. Konwersja obrazów na dyskretne tokeny przyspiesza proces, ale jednocześnie powoduje utratę ważnych szczegółów, takich jak krawędzie obiektów, rysy twarzy, włosy, oczy, usta itp.
Rozwiązaniem HART jest skupienie modelu dyfuzji wyłącznie na „łataniu” tych szczegółów za pomocą tokenów resztkowych. Ponieważ model autoregresyjny wykonał już większość pracy, model dyfuzji potrzebuje tylko 8 kroków przetwarzania zamiast ponad 30, jak poprzednio.
„Model dyfuzji jest łatwiejszy do wdrożenia, co przekłada się na wyższą wydajność” – wyjaśnia współautor Haotian Tang.
Dokładniej rzecz ujmując, połączenie autoregresyjnego modelu transformatora o 700 milionach parametrów i lekkiego modelu dyfuzyjnego o 37 milionach parametrów sprawia, że HART oferuje taką samą wydajność jak model dyfuzyjny o maksymalnie 2 miliardach parametrów, ale jest 9 razy szybszy.
Początkowo zespół próbował również zintegrować model dyfuzji na wczesnych etapach procesu generowania obrazu, ale prowadziło to do kumulacji błędów. Najskuteczniejszym podejściem było pozostawienie modelowi dyfuzji ostatniego etapu i skupienie się wyłącznie na „brakujących” fragmentach obrazu.
Otwieranie przyszłości sztucznej inteligencji multimedialnej
Kolejnym krokiem zespołu jest zbudowanie wizualno-lingwistycznych modeli sztucznej inteligencji nowej generacji opartych na architekturze HART. Ponieważ HART jest skalowalny i adaptowalny do szerokiego zakresu typów danych (multimodalny), spodziewają się, że będzie można go zastosować do generowania wideo , predykcji dźwięku i wielu innych obszarów.
Badania te zostały sfinansowane przez kilka organizacji, w tym MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program oraz amerykańską Narodową Fundację Naukową. Firma NVIDIA przekazała również infrastrukturę GPU do trenowania modelu.
(Według MIT News)
Źródło: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Komentarz (0)