Az OmniHuman-1 nevű omnimodális modell dinamikus videókat képes létrehozni a karakterek beszédéről, énekléséről és mozgásáról, „a jelenlegi videókészítési módszerekhez képest kiváló minőségben” – állítja a ByteDance fejlesztőcsapata.

A valósághű képeket, videókat és hanganyagokat létrehozó mesterséges intelligencia technológiát, más néven „deepfake”-et, egyre inkább használják átverésekben és szórakoztatásban.

A ByteDance jelenleg Kína egyik legfelkapottabb mesterséges intelligencia alapú vállalata. A cég Doubao alkalmazása a legnépszerűbb a szárazföldi felhasználók körében.

Bár az OmniHuman-1 még nem került széles körben nyilvánosságra, a mintavideók gyorsan elterjedtek.

Az egyik kiemelkedő demó egy 23 másodperces videó volt, amely Albert Einsteint ábrázolta beszéd közben. A TechCrunch az alkalmazás eredményét „megdöbbentően lenyűgözőnek” és „a mai napig legrealisztikusabb deepfake videóknak” nevezte.

A fejlesztők szerint az OmniHuman-1-nek mindössze egyetlen képre van szüksége referenciaként, valamint hangadatokra, például beszédre vagy énekre, hogy bármilyen hosszúságú videót készítsen.

A kimeneti videó képkockasebessége állítható, valamint a benne lévő karakterek "testarányai".

d6a434e5a4dc974582b09c05b3646092afcf9490.jpeg
A ByteDance jelenleg Kína egyik legkiemelkedőbb mesterséges intelligencia fejlesztő cége. Fotó: TechCrunch

Továbbá a mesterséges intelligencia modellje, amelyet 19 000 órányi, kiadatlan forrásokból származó videótartalommal képeztek ki, képes meglévő videók szerkesztésére, sőt, meggyőző mértékben megváltoztatni az emberi kéz- és lábmozgásokat.

A ByteDance azonban azt is elismerte, hogy az OmniHuman-1 nem tökéletes, mivel bizonyos pózokkal továbbra is küzd, és hogy az "alacsony minőségű referenciaképek" nem fogják a legjobb videót eredményezni.

A ByteDance új mesterséges intelligencia modellje Kína fejlődését mutatja be Washington technológiai exportjának korlátozására irányuló erőfeszítései ellenére.

Aggodalmak

Tavaly világszerte elterjedtek a politikai deepfake-ek. Moldovában a deepfake-videók Maia Sandu elnököt utánozták lemondó beszéde közben.

Dél-Afrikában pedig Eminem rapper deepfake-je terjedt el vírusként a választások előtt, amelyben egy dél-afrikai ellenzéki pártot támogat.

A deepfake-eket egyre gyakrabban használják pénzügyi bűncselekmények elkövetésére is. A fogyasztókat hírességek deepfake-jei csapják be, befektetéseket ajánlanak és hamis befektetési lehetőségeket kínálnak, miközben a vállalatok dollármilliókat veszítenek a felsővezetők megszemélyesítői miatt.

A Deloitte szerint a mesterséges intelligencia által generált tartalom több mint 12 milliárd dollárnyi csalásból eredő veszteséget okozott 2023-ban, és 2027-re elérheti a 40 milliárd dollárt az Egyesült Államokban.

Tavaly februárban a mesterséges intelligencia közösségének több száz tagja írt alá egy levelet, amelyben szigorúbb szabályozást követeltek a deepfake-ekkel szemben. Bár az Egyesült Államokban nincsenek olyan szövetségi törvények, amelyek büntetendővé tennék a deepfake-eket, több mint 10 állam hozott törvényeket a mesterséges intelligencia által vezérelt hamisítás ellen.

A deepfake-ek felderítése azonban nem könnyű. Bár egyes közösségi média platformok és keresőmotorok intézkedéseket hoztak a terjedésük korlátozására, az online deepfake tartalmak mennyisége továbbra is riasztó ütemben növekszik.

A Jumio személyazonosság-ellenőrző cég 2024 májusában végzett felmérésében a résztvevők 60%-a számolt be arról, hogy az elmúlt évben találkozott deepfake-kel; a válaszadók 72%-a aggódott amiatt, hogy naponta átverik őket a deepfake-ek, míg a többség támogatta a mesterséges intelligencia által generált hamis videók elterjedésének megakadályozására irányuló törvény elfogadását.

A Google zöld utat adott a mesterséges intelligencia fegyverekben és megfigyelési technológiákban való használatának . A Google megszegte ígéretét, hogy nem tervez és nem telepít mesterséges intelligencián alapuló eszközöket fegyverekben és megfigyelési technológiákban való használatra.