Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

A Veo 3 nagy problémája

Ez a mesterséges intelligencia modell több mint egy hónappal a megjelenése után automatikusan zagyvaságokat illeszt be a videókba, ami azt mutatja, hogy a Google hajlandó befejezetlen termékeket kiadni mesterséges intelligencia képességeinek bemutatására.

ZNewsZNews19/07/2025

A Veo3 a Google legújabb mesterséges intelligencia modellje, amelyet május végén mutattak be, és lehetővé teszi videók létrehozását parancsok alapján. Ez a modell felkeltette a tartalomkészítő közösség figyelmét, mivel lehetővé teszi hanggal és párbeszéddel ellátott videók készítését, ami a Google korábbi modellverziójában nem volt elérhető, így realisztikusabbá teszi azt.

Sok felhasználó használ Veo 3 videókat, akár 8 másodperc hosszúságban, reklámok, ASMR videók, fantasy filmelőzetesek és humoros utcai interjúk készítéséhez.

Az Oscar-díjra jelölt rendező, Darren Aronofsky az eszközt használta egy Ancestra című rövidfilm elkészítéséhez. Egy sajtótájékoztatón a Google DeepMind vezérigazgatója, Demis Hassabis a Veo 3-at a némafilmes korszaktól való eltávolodáshoz hasonlította a filmművészetben.

„Persistent” felirat a Veo 3-ból

Sok felhasználó azonban azt tapasztalta, hogy az eszköz nem a várt módon működik. Párbeszédeket tartalmazó klipek létrehozásakor a Veo 3 gyakran automatikusan értelmetlen, kusza feliratokat illeszt be, még akkor is, ha a parancs kifejezetten azt mondja ki, hogy ne adjon hozzá feliratokat.

Ezeknek a feliratoknak az eltávolítása nem könnyű. A felhasználók kénytelenek újraalkotni a klipet, „tokeneket” költeni, ami több pénzt jelent a Google-nek, vagy külső eszközt használni a feliratok eltávolítására, esetleg a videó megvágásával eltávolítani a feliratokat.

video AI anh 1

A Veo 3 élethű képeket produkál, a párbeszédek illeszkednek a szájmozgásokhoz, de a feliratok értelmetlenek. Fotó: Lesswrong .

Josh Woodward, a Google Labs és a Gemini alelnöke június 9-én az X-en közzétette, hogy a Google javításokat fejlesztett ki a spam csökkentésére. Több mint egy hónappal később azonban a felhasználók továbbra is jelentik a problémát a Google Labs Discord csatornáján, ami azt mutatja, hogy a nagyméretű mesterséges intelligencia modellek hibáinak javítása nem egyszerű.

A Google korábbi videógeneráló mesterséges intelligencia alapú modelljeihez hasonlóan a Veo 3 is fizetős modell, havi 249,99 dollártól indul. Egy 8 másodperces videó létrehozásához a felhasználóknak meg kell adniuk egy leírást a Flow, a Gemini vagy más platformon. Minden Veo 3-mal létrehozott klip minimum 20 mesterséges intelligencia kreditbe kerül, és a felhasználók 25 dollárral feltölthetik az egyenlegüket, így 2500 kreditet kaphatnak.

Mona Weiss, egy kereskedelmi igazgató, azt mondta, hogy a feliratok eltávolítása utáni felvételek újrakészítése jelentős költséggé válik. „Ha Veo3-mal készítesz egy hangos jelenetet, a kimenet körülbelül 40%-a értelmetlen feliratokat tartalmaz majd, amelyek használhatatlanná teszik a videót” – mondta. „Sok pénzbe kerül egy olyan jelenetet készíteni, ami tetszik, de nem használható.”

video AI anh 2

Az értelmetlen feliratokat nehéz eltávolítani a Veo 3-on. Fotó: Technology Review .

Amikor Weiss a Discordon keresztül jelentette a problémát a Google Labsnek abban a reményben, hogy visszatérítést kap az elvesztegetett kreditekért, a támogató csapat átirányította őt a cég hivatalos támogatási osztályához. Felajánlották, hogy visszatérítik a Veo 3 előfizetés árát, de a krediteket nem. Weiss ezt elutasította, mert a visszatérítés elfogadása a modellhez való hozzáférés elvesztését jelentette volna.

A Google Labs Discord ügyfélszolgálata azt nyilatkozta, hogy a feliratok automatikusan engedélyezhetők beszéd észlelése esetén, és dolgoznak a probléma megoldásán.

A Google megközelítésének problémája

A Veo 3 automatikusan beszúr feliratokat, amiért azok az adatok állnak rendelkezésre, amelyeken a modellt betanították.

Bár a Google nem hozta nyilvánosságra a modell betanításához használt adatkategóriákat, valószínűleg YouTube- és TikTok-videókat is tartalmazott, amelyek közül soknak közvetlenül a képkockába vannak beágyazva a feliratok, ami megnehezíti az eltávolításukat, mielőtt betanítási adatként használnák őket – állítja Shuo Niu, a massachusettsi Clark Egyetem videómegosztó platformokkal és mesterséges intelligenciával foglalkozó kutatója.

„A szövegből videóvá alakító modelleket megerősítéses tanulással képezik ki, hogy olyan tartalmat hozzanak létre, amely utánozza az ember által generált videókat, és ha ezek a videók felirattal rendelkeznek, a modell »megtanulhatja«, hogy a feliratok hozzáadása a terméket jobban hasonlítja az ember által generált videókhoz” – magyarázza.

video AI anh 3

A Veo 3-at a YouTube-ról és a TikTok-videókból származó modellképzési adatok befolyásolják. Fotó: Mashable .

„Folyamatosan fejlesztjük videókészítési képességeinket, különösen a szöveg, a természetes beszéd és a tökéletesen szinkronizált hanganyagok terén” – mondta a Google szóvivője. „Arra biztatjuk a felhasználókat, hogy próbálják meg újra a parancsaikat, ha inkonzisztens eredményeket tapasztalnak, és adjanak visszajelzést az eredmények kedvelésével vagy nemtetszésével.”

Továbbá, azért figyelmen kívül hagyja a modell az olyan utasításokat, mint a „Nincsenek feliratok”, mert a negatív kijelentések (azok, amelyek arra kérik a mesterséges intelligenciát, hogy ne tegyen valamit) gyakran kevésbé hatékonyak, mint a pozitív promptok – állítja Tuhin Chakrabarty, a Stony Brook Egyetem mesterséges intelligencia rendszerek kutatója.

A probléma teljes megoldásához a Google-nek meg kellene vizsgálnia a Veo 3 betanításához használt összes videó minden egyes képkockáját, majd el kellene távolítania vagy újra kellene címkéznie a videókat feliratokkal, mielőtt újra betanítaná a modellt, ami hetekig tartana, tette hozzá Chakrabarty.

Katerina Cizek, dokumentumfilm-készítő és az MIT Open Documentary Lab művészeti igazgatója szerint a probléma azt mutatja, hogy a Google továbbra is hajlandó olyan termékeket piacra dobni, amelyek még nem teljesen készek.

„A Google-nek győzelemre van szüksége” – mondta Cizek. „Elsőként kell kiadniuk egy olyan eszközt, amely képes az ajkaik hangzásához igazodni. És ez fontosabb, mint a feliratozási probléma megoldása.”

Forrás: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Hozzászólás (0)

No data
No data

Ugyanebben a kategóriában

A Suoi Bon lila sim-dombja virágzik a Son La-i lebegő felhőtengerben
A turisták özönlenek Y Ty-ba, amely az északnyugat legszebb teraszos mezői között fekszik.
Ritka nikobár galambok közeli felvétele a Con Dao Nemzeti Parkban
Lenyűgözi a Gia Lai tenger alatti színes korallvilág szabadtüdős merülés közben

Ugyanattól a szerzőtől

Örökség

Ábra

Üzleti

No videos available

Hír

Politikai rendszer

Helyi

Termék