Vietnam.vn - Nền tảng quảng bá Việt Nam

Nowe narzędzie AI tworzy wysokiej jakości obrazy 9 razy szybciej.

Naukowcom z MIT i NVIDIA udało się opracować HART – narzędzie umożliwiające tworzenie wysokiej jakości obrazów z wyjątkowo dużą prędkością, przy jednoczesnym wykorzystaniu tak małej ilości zasobów, że może być uruchamiane bezpośrednio na laptopach lub smartfonach.

VietNamNetVietNamNet26/03/2025

anh1.jpg

Obraz astronauty jadącego na koniu powstał w wyniku połączenia dwóch typów modeli generowanych przez sztuczną inteligencję. Zdjęcie: MIT News


Kiedy prędkość i jakość nie są już kwestią wyboru.

W dziedzinie tworzenia obrazów wspomaganych sztuczną inteligencją obecnie stosuje się dwie główne metody:

Modele dyfuzyjne pozwalają na tworzenie szczegółowych, ostrych obrazów. Są jednak bardzo powolne i wymagają dużej ilości zasobów obliczeniowych, ponieważ wymagają dziesiątek kroków przetwarzania, aby usunąć szum z każdego piksela.

Z drugiej strony modele autoregresyjne są znacznie szybsze, ponieważ potrafią sekwencyjnie przewidywać małe fragmenty obrazu. Często jednak generują obrazy o mniejszej szczegółowości i są podatne na błędy.

HART (hybrydowy transformator autoregresyjny) łączy oba te podejścia, oferując „to, co najlepsze z obu światów”. Najpierw wykorzystuje model autoregresyjny do zbudowania całościowego obrazu poprzez zakodowanie go w dyskretnych tokenach. Następnie, nieco rozproszony model przetwarza dalej, dodając tokeny resztkowe – szczegóły utracone w procesie kodowania.

W rezultacie powstają obrazy o jakości porównywalnej (lub lepszej) do tych uzyskiwanych w najbardziej zaawansowanych modelach dyfuzyjnych, ale przetwarzanie jest dziewięć razy szybsze i wykorzystuje o 31% mniej zasobów obliczeniowych.

To nowe podejście pozwala tworzyć wysokiej jakości obrazy z dużą prędkością.

Jedną z istotnych innowacji HART jest sposób, w jaki rozwiązuje problem utraty informacji podczas korzystania z modeli autoregresyjnych. Konwersja obrazów na dyskretne tokeny przyspiesza ten proces, ale powoduje również utratę ważnych szczegółów, takich jak kontury obiektów, rysy twarzy, włosy, oczy i usta.

Rozwiązaniem HART jest skupienie modelu dyfuzji wyłącznie na „łataniu” tych szczegółów za pomocą tokenów resztkowych. Ponieważ model wykonał już większość pracy poprzez autoregresję, model dyfuzji potrzebuje tylko 8 kroków przetwarzania zamiast ponad 30 jak poprzednio.

„Model dyfuzji jest łatwiejszy do wdrożenia, a zatem bardziej skuteczny” – wyjaśnia współautor Haotian Tang.

Dokładniej rzecz ujmując, połączenie modelu transformatora autoregresyjnego o 700 milionach parametrów i łagodnego modelu dyfuzyjnego o 37 milionach parametrów pozwala HART osiągnąć wydajność porównywalną z modelem dyfuzyjnym o maksymalnie 2 miliardach parametrów, ale dziewięć razy szybszą.

Początkowo zespół badawczy próbował również zintegrować model dyfuzji na wczesnych etapach procesu tworzenia obrazu, ale doprowadziło to do nagromadzenia błędów. Najskuteczniejszym podejściem jest pozostawienie modelowi dyfuzji ostatniego etapu i skupienie się tylko na „brakujących” częściach obrazu.

Odkrywamy przyszłość sztucznej inteligencji w multimediach.

Kolejnym krokiem zespołu badawczego jest zbudowanie modeli wizji AI – języka nowej generacji opartego na architekturze HART. Ponieważ HART jest skalowalny i adaptowalny do wielu typów danych (multimodalny), spodziewają się, że będzie mógł być stosowany do tworzenia filmów , predykcji audio i wielu innych dziedzin.

Badania te były finansowane przez wiele organizacji, w tym MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program oraz amerykańską Narodową Fundację Naukową. Firma NVIDIA zapewniła również infrastrukturę GPU do trenowania modelu.

(Według MIT News)


Źródło: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Komentarz (0)

Zostaw komentarz, aby podzielić się swoimi odczuciami!

W tym samym temacie

W tej samej kategorii

Od tego samego autora

Dziedzictwo

Postać

Firmy

Sprawy bieżące

System polityczny

Lokalny

Produkt

Happy Vietnam
Wyruszamy na misję.

Wyruszamy na misję.

producent form

producent form

„Pokój w śmiechu dzieci”

„Pokój w śmiechu dzieci”