Vietnam.vn - Nền tảng quảng bá Việt Nam

Új mesterséges intelligencia eszköz készít kiváló minőségű fotókat, kilencszer gyorsabban

Az MIT és az NVIDIA tudósai sikeresen kifejlesztették a HART-ot - egy olyan eszközt, amely kivételesen gyors sebességgel készít kiváló minőségű képeket, miközben olyan kevés erőforrást fogyaszt, hogy közvetlenül laptopon vagy okostelefonon is futtatható.

VietNamNetVietNamNet26/03/2025

1. fotó.jpg

Ez a kép egy lovagló űrhajósról kétféle generatív mesterséges intelligencia modell felhasználásával készült. Fotó: MIT News


Amikor a sebesség és a minőség már nem kompromisszum kérdése

A mesterséges intelligencia alapú képalkotás területén jelenleg két fő megközelítés létezik:

A diffúziós modellek éles, részletes képeket tesznek lehetővé. Ezek azonban lassúak és számítási szempontból költségesek, mivel több tucat feldolgozási lépést igényelnek a zaj eltávolításához minden egyes pixelből.

Az autoregresszív modellek sokkal gyorsabbak, mivel a kép kis részeit egymás után jósolják meg. Azonban gyakran kevésbé részletes képeket hoznak létre, és hajlamosak a hibákra.

A HART (hibrid autoregresszív transzformátor) a kettőt ötvözi, így a „mindkét világ legjavát” nyújtja. Először egy autoregresszív modellt használ a teljes kép felépítéséhez, diszkrét tokenekké kódolva azt. Ezután egy könnyű diffúziós modell veszi át a szerepet, hogy kitöltse a maradék tokeneket – a kódolás során elvesző részletes információkat.

Az így kapott képek minősége összehasonlítható (vagy jobb) a legmodernebb diffúziós modellekével, de 9-szer gyorsabban feldolgozhatók és 31%-kal kevesebb számítási erőforrást igényelnek.

Új megközelítés a minőségi képek nagy sebességű előállításához

A HART egyik figyelemre méltó újítása, hogy hogyan oldja meg az információvesztés problémáját autoregresszív modellek használatakor. A képek diszkrét tokenekké konvertálása felgyorsítja a folyamatot, de egyúttal fontos részleteket is elveszít, mint például a tárgyak szélei, arcvonásai, haj, szem, száj stb.

A HART megoldása az, hogy a diffúziós modell csak ezen részletek „foltozására” összpontosít reziduális tokenek segítségével. És mivel az autoregresszív modell már elvégezte a munka nagy részét, a diffúziós modellnek csak 8 feldolgozási lépésre van szüksége a korábbi több mint 30 lépés helyett.

„A diffúziós modell könnyebben megvalósítható, ami nagyobb hatékonysághoz vezet” – magyarázza Haotian Tang társszerző.

Konkrétan egy 700 millió paraméterrel rendelkező autoregresszív transzformátormodell és egy 37 millió paraméterrel rendelkező pehelysúlyú diffúziós modell kombinációja ugyanolyan teljesítményt biztosít a HART számára, mint egy akár 2 milliárd paraméterrel rendelkező diffúziós modell, de 9-szer gyorsabb.

A csapat kezdetben megpróbálta a diffúziós modellt integrálni a képalkotási folyamat korai szakaszába, de ez hibákat halmozott fel. A leghatékonyabb megközelítés az volt, hogy a diffúziós modellre bízták az utolsó lépést, és csak a kép „hiányzó” részeire koncentráltak.

A multimédiás mesterséges intelligencia jövőjének feltárása

A csapat következő lépése a HART architektúrán alapuló, következő generációs vizuális-lingvisztikai mesterséges intelligencia modellek létrehozása. Mivel a HART skálázható és számos adattípushoz adaptálható (multimodális), várhatóan alkalmazni tudják majd videógenerálásban , hangpredikcióban és számos más területen.

Ezt a kutatást számos szervezet finanszírozta, köztük az MIT-IBM Watson AI Lab, az MIT-Amazon Tudományos Központ, az MIT AI Hardware Program és az Egyesült Államok Nemzeti Tudományos Alapítványa. Az NVIDIA GPU infrastruktúrát is adományozott a modell betanításához.

(Az MIT News szerint)


Forrás: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Hozzászólás (0)

Kérjük, hagyj egy hozzászólást, és oszd meg az érzéseidet!

Ugyanebben a témában

Ugyanebben a kategóriában

A Ho Si Minh-városban található Notre Dame székesegyház fényesen kivilágítva köszönti a 2025-ös karácsonyt.
Hanoi lányai gyönyörűen öltöznek fel karácsonyra
A vihar és árvíz után kivilágosodott Gia Lai-i Tet krizantém falu abban reménykedik, hogy nem lesznek áramkimaradások a növények megmentése érdekében.
A sárgabarack fővárosa a központi régióban súlyos veszteségeket szenvedett el kettős természeti katasztrófa után

Ugyanattól a szerzőtől

Örökség

Ábra

Üzleti

Egy dalati kávézó vendégeinek száma 300%-kal nőtt, mert a tulajdonos egy harcművészeti filmbeli szerepet játszott.

Aktuális események

Politikai rendszer

Helyi

Termék

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC