Új mesterséges intelligencia eszköz készít kiváló minőségű fotókat, kilencszer gyorsabban

1. fotó.jpg

Ez a kép egy lovagló űrhajósról kétféle generatív mesterséges intelligencia modell felhasználásával készült. Fotó: MIT News

Amikor a sebesség és a minőség már nem kompromisszum kérdése

A mesterséges intelligencia alapú képalkotás területén jelenleg két fő megközelítés létezik:

A diffúziós modellek éles, részletes képeket tesznek lehetővé. Ezek azonban lassúak és számítási szempontból költségesek, mivel több tucat feldolgozási lépést igényelnek a zaj eltávolításához minden egyes pixelből.

Az autoregresszív modellek sokkal gyorsabbak, mivel a kép kis részeit egymás után jósolják meg. Azonban gyakran kevésbé részletes képeket hoznak létre, és hajlamosak a hibákra.

A HART (hibrid autoregresszív transzformátor) a kettőt ötvözi, így a „mindkét világ legjavát” nyújtja. Először egy autoregresszív modellt használ a teljes kép felépítéséhez, diszkrét tokenekké kódolva azt. Ezután egy könnyű diffúziós modell veszi át a szerepet, hogy kitöltse a maradék tokeneket – a kódolás során elvesző részletes információkat.

Az így kapott képek minősége összehasonlítható (vagy jobb) a legmodernebb diffúziós modellekével, de 9-szer gyorsabban feldolgozhatók és 31%-kal kevesebb számítási erőforrást igényelnek.

Új megközelítés a minőségi képek nagy sebességű előállításához

A HART egyik figyelemre méltó újítása, hogy hogyan oldja meg az információvesztés problémáját autoregresszív modellek használatakor. A képek diszkrét tokenekké konvertálása felgyorsítja a folyamatot, de egyúttal fontos részleteket is elveszít, mint például a tárgyak szélei, arcvonásai, haj, szem, száj stb.

A HART megoldása az, hogy a diffúziós modell csak ezen részletek „foltozására” összpontosít reziduális tokenek segítségével. És mivel az autoregresszív modell már elvégezte a munka nagy részét, a diffúziós modellnek csak 8 feldolgozási lépésre van szüksége a korábbi több mint 30 lépés helyett.

„A diffúziós modell könnyebben megvalósítható, ami nagyobb hatékonysághoz vezet” – magyarázza Haotian Tang társszerző.

Konkrétan egy 700 millió paraméterrel rendelkező autoregresszív transzformátormodell és egy 37 millió paraméterrel rendelkező pehelysúlyú diffúziós modell kombinációja ugyanolyan teljesítményt biztosít a HART számára, mint egy akár 2 milliárd paraméterrel rendelkező diffúziós modell, de 9-szer gyorsabb.

A csapat kezdetben megpróbálta a diffúziós modellt integrálni a képalkotási folyamat korai szakaszába, de ez hibákat halmozott fel. A leghatékonyabb megközelítés az volt, hogy a diffúziós modellre bízták az utolsó lépést, és csak a kép „hiányzó” részeire koncentráltak.

A multimédiás mesterséges intelligencia jövőjének feltárása

A csapat következő lépése a HART architektúrán alapuló, következő generációs vizuális-lingvisztikai mesterséges intelligencia modellek létrehozása. Mivel a HART skálázható és számos adattípushoz adaptálható (multimodális), várhatóan alkalmazni tudják majd videógenerálásban , hangpredikcióban és számos más területen.

Ezt a kutatást számos szervezet finanszírozta, köztük az MIT-IBM Watson AI Lab, az MIT-Amazon Tudományos Központ, az MIT AI Hardware Program és az Egyesült Államok Nemzeti Tudományos Alapítványa. Az NVIDIA GPU infrastruktúrát is adományozott a modell betanításához.

(Az MIT News szerint)

Forrás: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html

Címke: WHO mesterséges intelligencia

Hozzászólás (0)

Legnépszerűbb

Legújabb

Kérjük, hagyj egy hozzászólást, és oszd meg az érzéseidet!

[Fotó] A Vietnami Fotóművészek Szövetségének alapításának 60. évfordulója

Ugyanebben a témában

A mesterséges intelligencia 2026-ra uralni fogja a tőzsdét

Đài truyền hình Việt Nam

3 giờ trước

Mi történik, ha egy előadó slágerét a mesterséges intelligencia lemásolja, hogy versenyezhessen?

Người Lao Động

3 giờ trước

A bankok támogatják a digitalizációt, akár ötszörösére is lerövidítve az adatfeldolgozási időt

Tạp chí Doanh Nghiệp

3 giờ trước

Egységes tankönyvkészlet: Nem jelenti a sokszínűség felszámolását

Báo Dân trí

5 giờ trước

A 6000 milliárd VND feletti értékű technológiai projektek adómentességi és -csökkentési időszakai meghosszabbíthatók.

Người Lao Động

6 giờ trước

„A Prensa Latina és a VNA között nagy a potenciál az együttműködés bővítésére”

VietnamPlus

11 giờ trước

Ugyanebben a kategóriában

A 2025-ös vietnami mesterséges intelligencia verseny célja, hogy a mesterséges intelligenciát a technológiából humanitárius értékké alakítsa.

VietNamNet

04/12/2025

A Zalo AI Summit 2025 összehozza a mesterséges intelligencia vezető szakértőit

VietNamNet

03/12/2025

Vietnami MI Verseny 2025: Amit tudnod kell az Élő Prezentáció Döntőjéről

VietNamNet

03/12/2025

Vietnam a humanizmus és a biztonság felé formálja a mesterséges intelligencia stratégiáját

Báo Lao Động

03/12/2025

Vietnam 2025 végéig bejelenti a frissített mesterséges intelligencia stratégiát és a mesterséges intelligenciára vonatkozó törvényt.

Báo Tuổi Trẻ

02/12/2025

A vietnamiak 61%-a aggódik amiatt, hogy elveszíti az állását, vagy nem talál munkát a mesterséges intelligencia miatt.

VietNamNet

02/12/2025

A Ho Si Minh-városban található Notre Dame székesegyház fényesen kivilágítva köszönti a 2025-ös karácsonyt.

Hanoi lányai gyönyörűen öltöznek fel karácsonyra

A vihar és árvíz után kivilágosodott Gia Lai-i Tet krizantém falu abban reménykedik, hogy nem lesznek áramkimaradások a növények megmentése érdekében.