Ez a kép egy lovagló űrhajósról kétféle generatív mesterséges intelligencia modell felhasználásával készült. Fotó: MIT News
Amikor a sebesség és a minőség már nem kompromisszum kérdése
A mesterséges intelligencia alapú képalkotás területén jelenleg két fő megközelítés létezik:
A diffúziós modellek éles, részletes képeket tesznek lehetővé. Ezek azonban lassúak és számítási szempontból költségesek, mivel több tucat feldolgozási lépést igényelnek a zaj eltávolításához minden egyes pixelből.
Az autoregresszív modellek sokkal gyorsabbak, mivel a kép kis részeit egymás után jósolják meg. Azonban gyakran kevésbé részletes képeket hoznak létre, és hajlamosak a hibákra.
A HART (hibrid autoregresszív transzformátor) a kettőt ötvözi, így a „mindkét világ legjavát” nyújtja. Először egy autoregresszív modellt használ a teljes kép felépítéséhez, diszkrét tokenekké kódolva azt. Ezután egy könnyű diffúziós modell veszi át a szerepet, hogy kitöltse a maradék tokeneket – a kódolás során elvesző részletes információkat.
Az így kapott képek minősége összehasonlítható (vagy jobb) a legmodernebb diffúziós modellekével, de 9-szer gyorsabban feldolgozhatók és 31%-kal kevesebb számítási erőforrást igényelnek.
Új megközelítés a minőségi képek nagy sebességű előállításához
A HART egyik figyelemre méltó újítása, hogy hogyan oldja meg az információvesztés problémáját autoregresszív modellek használatakor. A képek diszkrét tokenekké konvertálása felgyorsítja a folyamatot, de egyúttal fontos részleteket is elveszít, mint például a tárgyak szélei, arcvonásai, haj, szem, száj stb.
A HART megoldása az, hogy a diffúziós modell csak ezen részletek „foltozására” összpontosít reziduális tokenek segítségével. És mivel az autoregresszív modell már elvégezte a munka nagy részét, a diffúziós modellnek csak 8 feldolgozási lépésre van szüksége a korábbi több mint 30 lépés helyett.
„A diffúziós modell könnyebben megvalósítható, ami nagyobb hatékonysághoz vezet” – magyarázza Haotian Tang társszerző.
Konkrétan egy 700 millió paraméterrel rendelkező autoregresszív transzformátormodell és egy 37 millió paraméterrel rendelkező pehelysúlyú diffúziós modell kombinációja ugyanolyan teljesítményt biztosít a HART számára, mint egy akár 2 milliárd paraméterrel rendelkező diffúziós modell, de 9-szer gyorsabb.
A csapat kezdetben megpróbálta a diffúziós modellt integrálni a képalkotási folyamat korai szakaszába, de ez hibákat halmozott fel. A leghatékonyabb megközelítés az volt, hogy a diffúziós modellre bízták az utolsó lépést, és csak a kép „hiányzó” részeire koncentráltak.
A multimédiás mesterséges intelligencia jövőjének feltárása
A csapat következő lépése a HART architektúrán alapuló, következő generációs vizuális-lingvisztikai mesterséges intelligencia modellek létrehozása. Mivel a HART skálázható és számos adattípushoz adaptálható (multimodális), várhatóan alkalmazni tudják majd videógenerálásban , hangpredikcióban és számos más területen.
Ezt a kutatást számos szervezet finanszírozta, köztük az MIT-IBM Watson AI Lab, az MIT-Amazon Tudományos Központ, az MIT AI Hardware Program és az Egyesült Államok Nemzeti Tudományos Alapítványa. Az NVIDIA GPU infrastruktúrát is adományozott a modell betanításához.
(Az MIT News szerint)
Forrás: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Hozzászólás (0)