Vietnam.vn - Nền tảng quảng bá Việt Nam

Nowe narzędzie AI tworzy wysokiej jakości zdjęcia 9 razy szybciej

Naukowcom z MIT i firmy NVIDIA udało się opracować HART — narzędzie, które tworzy wysokiej jakości obrazy z wyjątkowo dużą szybkością, zużywając przy tym tak mało zasobów, że można je uruchomić bezpośrednio na laptopie lub smartfonie.

VietNamNetVietNamNet26/03/2025

zdjęcie 1.jpg

To zdjęcie astronauty jadącego na koniu zostało stworzone przy użyciu dwóch typów generatywnych modeli sztucznej inteligencji. Zdjęcie: MIT News


Kiedy prędkość i jakość nie są już kompromisem

W dziedzinie obrazowania AI obecnie istnieją dwa główne podejścia:

Modele dyfuzyjne pozwalają na uzyskanie ostrych i szczegółowych obrazów. Są jednak powolne i kosztowne obliczeniowo, wymagając dziesiątek kroków przetwarzania, aby usunąć szum z każdego piksela.

Modele autoregresyjne są znacznie szybsze, ponieważ przewidują sekwencyjnie małe fragmenty obrazu. Często jednak generują obrazy o mniejszej szczegółowości i są podatne na błędy.

HART (hybrydowy transformator autoregresyjny) łączy te dwa rozwiązania, zapewniając „to, co najlepsze z obu światów”. Najpierw wykorzystuje model autoregresyjny do zbudowania ogólnego obrazu poprzez zakodowanie go w dyskretnych tokenach. Następnie lekki model dyfuzyjny przejmuje kontrolę, aby uzupełnić tokeny resztkowe – szczegółowe informacje utracone podczas kodowania.

Otrzymane obrazy mają jakość porównywalną (lub lepszą) do obrazów uzyskanych przy użyciu najnowocześniejszych modeli dyfuzji, ale są 9 razy szybsze w przetwarzaniu i wymagają o 31% mniej zasobów obliczeniowych.

Nowe podejście do tworzenia wysokiej jakości obrazów z dużą prędkością

Jedną z istotnych innowacji HART jest sposób, w jaki rozwiązuje on problem utraty informacji podczas korzystania z modeli autoregresyjnych. Konwersja obrazów na dyskretne tokeny przyspiesza proces, ale jednocześnie powoduje utratę ważnych szczegółów, takich jak krawędzie obiektów, rysy twarzy, włosy, oczy, usta itp.

Rozwiązaniem HART jest skupienie modelu dyfuzji wyłącznie na „łataniu” tych szczegółów za pomocą tokenów resztkowych. Ponieważ model autoregresyjny wykonał już większość pracy, model dyfuzji potrzebuje tylko 8 kroków przetwarzania zamiast ponad 30, jak poprzednio.

„Model dyfuzji jest łatwiejszy do wdrożenia, co przekłada się na wyższą wydajność” – wyjaśnia współautor Haotian Tang.

Dokładniej rzecz ujmując, połączenie autoregresyjnego modelu transformatora o 700 milionach parametrów i lekkiego modelu dyfuzyjnego o 37 milionach parametrów sprawia, że ​​HART oferuje taką samą wydajność jak model dyfuzyjny o maksymalnie 2 miliardach parametrów, ale jest 9 razy szybszy.

Początkowo zespół próbował również zintegrować model dyfuzji na wczesnych etapach procesu generowania obrazu, ale prowadziło to do kumulacji błędów. Najskuteczniejszym podejściem było pozostawienie modelowi dyfuzji ostatniego etapu i skupienie się wyłącznie na „brakujących” fragmentach obrazu.

Otwieranie przyszłości sztucznej inteligencji multimedialnej

Kolejnym krokiem zespołu jest zbudowanie wizualno-lingwistycznych modeli sztucznej inteligencji nowej generacji opartych na architekturze HART. Ponieważ HART jest skalowalny i adaptowalny do szerokiego zakresu typów danych (multimodalny), spodziewają się, że będzie można go zastosować do generowania wideo , predykcji dźwięku i wielu innych obszarów.

Badania te zostały sfinansowane przez kilka organizacji, w tym MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program oraz amerykańską Narodową Fundację Naukową. Firma NVIDIA przekazała również infrastrukturę GPU do trenowania modelu.

(Według MIT News)


Źródło: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Komentarz (0)

Zostaw komentarz, aby podzielić się swoimi odczuciami!

W tym samym temacie

W tej samej kategorii

Katedra Notre Dame w Ho Chi Minh City rozświetlona z okazji Bożego Narodzenia 2025
Dziewczyny z Hanoi „pięknie się ubierają” na okres Bożego Narodzenia
Rozjaśniona po burzy i powodzi wioska chryzantem Tet w Gia Lai ma nadzieję, że nie będzie przerw w dostawie prądu, które mogłyby uratować rośliny.
Stolica żółtej moreli w regionie centralnym poniosła duże straty po dwóch klęskach żywiołowych

Od tego samego autora

Dziedzictwo

Postać

Biznes

Liczba klientów kawiarni Dalat wzrosła o 300%, ponieważ właściciel odgrywa rolę w „filmie o sztukach walki”

Aktualne wydarzenia

System polityczny

Lokalny

Produkt

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC