Tento obrázek astronauta jedoucího na koni byl vytvořen s využitím dvou typů generativních modelů umělé inteligence. Foto: MIT News
Když rychlost a kvalita už nejsou kompromisem
V oblasti zobrazování pomocí umělé inteligence existují v současnosti dva hlavní přístupy:
Difuzní modely umožňují ostré a detailní snímky. Jsou však pomalé a výpočetně náročné a vyžadují desítky kroků zpracování k odstranění šumu z každého pixelu.
Autoregresní modely jsou mnohem rychlejší, protože postupně předpovídají malé části obrazu. Často však produkují obrazy s menším počtem detailů a jsou náchylné k chybám.
HART (hybridní autoregresní transformátor) kombinuje oba tyto metody a nabízí „to nejlepší z obou světů“. Nejprve používá autoregresní model ke konstrukci celkového obrazu jeho zakódováním do diskrétních tokenů. Poté převezme roli lehký difuzní model, který doplní zbytkové tokeny – podrobné informace ztracené během kódování.
Výsledné snímky mají srovnatelnou (nebo lepší) kvalitu s nejmodernějšími difúzními modely, ale jejich zpracování je 9krát rychlejší a spotřebovávají o 31 % méně výpočetních zdrojů.
Nový přístup k vytváření kvalitních snímků vysokou rychlostí
Jednou z pozoruhodných inovací HARTu je řešení problému ztráty informací při použití autoregresních modelů. Převod obrázků na diskrétní tokeny proces urychluje, ale také dochází ke ztrátě důležitých detailů, jako jsou hrany objektů, rysy obličeje, vlasy, oči, ústa atd.
Řešením HARTu je, aby se difuzní model zaměřil pouze na „zalepení“ těchto detailů pomocí reziduálních tokenů. A protože autoregresní model již většinu práce vykonal, difuzní model potřebuje pouze 8 kroků zpracování místo více než 30 kroků jako dříve.
„Difuzní model se snáze implementuje, což vede k vyšší efektivitě,“ vysvětluje spoluautor Haotian Tang.
Konkrétně kombinace autoregresního transformátorového modelu se 700 miliony parametrů a odlehčeného difuzního modelu s 37 miliony parametrů dává HARTu stejný výkon jako difuzní model s až 2 miliardami parametrů, ale 9krát rychlejší.
Tým se zpočátku také pokusil integrovat difuzní model do raných fází procesu generování obrazu, ale tím se hromadily chyby. Nejefektivnějším přístupem bylo nechat difuzní model, aby se postaral o poslední krok, a zaměřit se pouze na „chybějící“ části obrazu.
Otevíráme budoucnost multimediální umělé inteligence
Dalším krokem týmu je vytvoření vizuálně-lingvistických modelů umělé inteligence nové generace založených na architektuře HART. Vzhledem k tomu, že HART je škálovatelný a přizpůsobivý široké škále datových typů (multimodální), očekávají, že jej budou moci aplikovat na generování videa , predikci zvuku a mnoho dalších oblastí.
Tento výzkum byl financován několika organizacemi, včetně laboratoře MIT-IBM Watson AI Lab, vědeckého centra MIT-Amazon Science Center, hardwarového programu MIT AI a americké Národní vědecké nadace. Společnost NVIDIA také darovala infrastrukturu GPU pro trénování modelu.
(Podle MIT News)
Zdroj: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










Komentář (0)