Nový nástroj umělé inteligence vytváří vysoce kvalitní obrázky 9krát rychleji.

Obrázek astronauta jedoucího na koni byl vytvořen kombinací dvou typů modelů generovaných umělou inteligencí. Foto: MIT News

Když rychlost a kvalita už nejsou kompromisem.

V oblasti tvorby obrázků s využitím umělé inteligence existují v současné době dvě hlavní metody:

Difuzní modely umožňují vytváření detailních a ostrých obrazů. Jsou však velmi pomalé a spotřebovávají spoustu výpočetních zdrojů, protože vyžadují desítky kroků zpracování k odstranění šumu z každého pixelu.

Autoregresní modely jsou na druhou stranu mnohem rychlejší, protože dokáží sekvenčně předpovídat malé části obrazu. Často však produkují obrazy s menším počtem detailů a jsou náchylné k chybám.

HART (hybridní autoregresní transformátor) kombinuje obojí a nabízí „to nejlepší z obou světů“. Nejprve používá autoregresní model ke konstrukci celkového obrazu jeho kódováním do diskrétních tokenů. Poté mírně difúzní model dále zpracovává a přidává zbytkové tokeny – detaily ztracené během procesu kódování.

Výsledkem jsou obrazy srovnatelné (nebo lepší) kvality s nejpokročilejšími difúzními modely, ale zpracování je devětkrát rychlejší a spotřebovává o 31 % méně výpočetních zdrojů.

Tento nový přístup pomáhá vytvářet vysoce kvalitní snímky vysokou rychlostí.

Jednou z pozoruhodných inovací HARTu je způsob, jakým řeší problém ztráty informací při použití autoregresních modelů. Převod obrázků na diskrétní tokeny proces urychluje, ale také vede ke ztrátě důležitých detailů, jako jsou obrysy objektů, rysy obličeje, vlasy, oči a ústa.

Řešením HARTu je, aby se difuzní model zaměřil výhradně na „opravu“ těchto detailů pomocí reziduálních tokenů. A protože model již většinu práce vykonal prostřednictvím autoregrese, difuzní model potřebuje pouze 8 kroků zpracování místo více než 30 jako dříve.

„Difuzní model je snadněji implementovatelný, a proto efektivnější,“ vysvětlil spoluautor Haotian Tang.

Konkrétně kombinace autoregresního transformátorového modelu se 700 miliony parametrů a mírného difuzního modelu s 37 miliony parametrů umožňuje HARTu dosáhnout výkonu srovnatelného s difuzním modelem s až 2 miliardami parametrů, ale devětkrát rychlejšího.

Výzkumný tým se zpočátku také pokusil integrovat difuzní model do raných fází procesu tvorby obrazu, ale to vedlo k hromadění chyb. Nejefektivnějším přístupem je nechat difuzní model, aby se postaral o poslední krok, a zaměřit se pouze na „chybějící“ části obrazu.

Odemykání budoucnosti multimediální umělé inteligence.

Dalším krokem výzkumného týmu je vytvoření modelů vidění s využitím umělé inteligence – jazyka nové generace založeného na architektuře HART. Protože je HART škálovatelný a přizpůsobivý mnoha typům dat (multimodální), očekávají, že jej budou moci aplikovat na tvorbu videa , predikci zvuku a mnoho dalších oblastí.

Tento výzkum byl financován několika organizacemi, včetně laboratoře MIT-IBM Watson AI Lab, vědeckého centra MIT-Amazon, hardwarového programu MIT AI a americké Národní vědecké nadace. Společnost NVIDIA také poskytla infrastrukturu GPU pro trénování modelu.

(Podle MIT News)

Zdroj: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html