(Dan Tri) - A TikTok anyavállalata, a ByteDance mindenkit meglepett, amikor bemutatott egy mesterséges intelligenciával működő eszközt, amely képes realisztikus tartalmú videókat készíteni.
A TikTok közösségi hálózat mögött álló ByteDance technológiai vállalat bemutatta új mesterséges intelligencia (MI) modelljét, az OmniHuman-1-et, amely élethű, élénk videók készítésére képes.
A ByteDance szerint az OmniHuman-1 a deepfake technológián alapul, amely lehetővé teszi rendkívül sima mozgású videók készítését, és nagyon nehéz felismerni mesterséges intelligencia által fejlesztett termékként. A ByteDance magabiztosan állítja, hogy mesterséges intelligencia által vezérelt eszköze kiváló minőségű termékeket képes létrehozni más, már meglévő mesterséges intelligencia által vezérelt videókészítő eszközökhöz képest.
Albert Einstein beszédének videója, amelyet az OmniHuman-1 készített a tudós képéből (Videó: ByteDance).
A ByteDance kutatói szerint az OmniHuman-1-nek mindössze egyetlen képre és hangra van szüksége mintának, például egy véletlenszerű személy hangjára vagy énekhangjára. Ezen adatok alapján a mesterséges intelligencia motorja bármilyen hosszúságú videókat képes létrehozni, olyan hanggal vagy énekhanggal, amely megegyezik a minta hanganyagával.
Az OmniHuman-1 képes a meglévő videók szerkesztésére és módosítására is, így megváltoztatva az eredeti videó tartalmát.
Ezenkívül az OmniHuman-1 lehetővé teszi a felhasználók számára, hogy új videókat készítsenek számos vizuális és hangstílussal, például animált videókat, filmes stílusú vagy élethű videókat.
Az OmniHuman-1 által készített videó felhasználó kérésére (Videó: ByteDance).
A felhasználóknak csak a képarányra és a testarányra (portré, féltest, teljestest vagy minden egyben) kell megadniuk a követelményeket, ez a mesterséges intelligencia eszköz a lehető legrealisztikusabb videókat készítheti, beleértve a mozgásokat, a fényeket, a környező részleteket...
A ByteDance még nem tette hivatalosan közzé az OmniHuman-1-et, de a cég megosztott néhány minta-videót, amelyeket az eszközzel készítettek.
Egy 23 másodperces videót készítettek Albert Einstein képéből, amelyen a híres tudós élethű arc- és ajakmozgásokkal tartott előadást.
Az OmniHuman-1 által készített számos másik rövid videóban élethű gesztusokkal és arckifejezésekkel bemutató embereket láthatunk.
Az OmniHuman-1 által állóképekből készített videó szereplők előadásairól (Videó: ByteDance).
Az OmniHuman-1 képességeit bemutató videók lenyűgözték az online és a tech közösséget, sokan elismerték, hogy ez a legrealisztikusabb hamis videó, amit valaha láttak.
A ByteDance kutatói azt mondták, hogy létrehoztak egy mesterséges intelligencia modellt, amely képes képek, videók és hangok adatainak keverésével valósághű videókat készíteni, arcarányokkal, testtartással, arckifejezésekkel, mozdulatokkal... a lehető legemberiesebb módon.
A kutatócsoport szerint a mesterséges intelligencia által generált videók természetes arcokat, fejmozgásokat, gesztusokat mutatnak, amelyek illeszkednek a környező hangokhoz és jelenetekhez, hozzájárulva a videók „realizmusának” növeléséhez.
A ByteDance egyelőre nem árulta el, hogy az OmniHuman-1 mikor lesz elérhető a felhasználók számára.
Az OmniHuman-1 által képekből készített videó, amelyen a vonat ablakán kívüli táj úgy változik, mintha valódi lenne (Videó: ByteDance).
Az OmniHuman-1 megjelenése jól mutatja a Kínából származó mesterséges intelligencia eszközök hihetetlen képességeit, de sokan aggódnak amiatt, hogy az OmniHuman-1-et rosszindulatú célokra is kihasználhatják, például hamis hírességvideók készítésére hamis információk megosztására, átverésekre, vagy akár hamis pornóvideók készítésére zsarolás céljából.
Az MI fejlesztési verseny egyre intenzívebbé válik az Egyesült Államok és Kína között, mivel a két nagyhatalom folyamatosan olyan MI-eszközöket vezet be, amelyek kiváló funkciókkal rendelkeznek ellenfeleik legyőzésére.
Néhány nappal ezelőtt az OpenAI egy új funkciót is integrált a ChatGPT-be, amely lehetővé teszi az eszköz számára, hogy hatalmas mennyiségű adatból mindössze néhány perc alatt jelentést készítsen, ami az emberek számára órákig tartana.
A deepfake egy mesterséges intelligencia technológia, amely egy személy arcának szintézisét alkalmazza, hogy egy másik személy arcképét videóra vagy képre vetítse.
A Deepfake egy „tanulási folyamaton” megy keresztül, amelynek során a bemeneti adatok alapján modelleket hoz létre, és megfelelő algoritmusokat választ ki a modellek folyamatos feldolgozásához és belőlük való tanuláshoz. Egy bizonyos „tanulási” időszak után a deepfake nagy pontossággal képes egyesíteni az arcokat, amelyeket szabad szemmel nehéz felismerni.
[hirdetés_2]
Forrás: https://dantri.com.vn/suc-manh-so/cong-ty-trung-quoc-ra-mat-ai-tao-video-gia-mao-giong-het-nhu-that-20250206125927906.htm
Hozzászólás (0)