Velký problém s Veo 3

Tento model umělé inteligence automaticky vkládá do videí chaotické a bezvýznamné titulky více než měsíc po svém spuštění. Tato situace ukazuje, že Google je ochoten vydat nedokončené produkty, aby demonstroval své schopnosti v oblasti umělé inteligence.

ZNews•19/07/2025

Veo3 je nejnovější model umělé inteligence od Googlu, který byl spuštěn koncem května a umožňuje uživatelům vytvářet videa na základě hlasových příkazů. Tento model přitáhl pozornost komunity tvůrců obsahu, protože umožňuje vytvářet videa se zvukem a dialogy, což je funkce, která v předchozích verzích modelu Googlu nebyla k dispozici, a tím je činí realističtějšími.

Mnoho uživatelů využívá videoklipy Veo 3, dlouhé až 8 sekund, k tvorbě reklam, ASMR videí, trailerů k fantasy filmům a vtipných pouličních rozhovorů.

Režisér nominovaný na Oscara Darren Aronofsky použil tento nástroj k vytvoření krátkého filmu s názvem Ancestra. Na tiskové konferenci generální ředitel společnosti Google DeepMind Demis Hassabis přirovnal Veo 3 k kroku „z éry němého filmu“ v kinematografii.

Titulky k filmu „Persistent“ z Veo 3

Mnoho uživatelů však zjistilo, že tento nástroj nefunguje podle očekávání. Při vytváření klipů s dialogy Veo 3 často automaticky vkládá nesmyslné, přeházené titulky, a to i v případě, že příkaz jasně uvádí, že titulky se nemají přidávat.

Odstranění těchto titulků není jednoduché. Uživatelé jsou nuceni klip znovu vytvořit a utratit „žetony“, což znamená utratit více peněz na Googlu, nebo použít externí nástroje k odstranění titulků, případně video oříznout, aby titulky odstranili.

Veo 3 produkuje realistické vizuální efekty a dialogy, které odpovídají pohybům rtů, ale titulky jsou bezvýznamné. Foto: Lesswrong .

Josh Woodward, viceprezident společností Google Labs a Gemini, 9. června na serveru X zveřejnil, že Google vyvinul záplaty, které mají problém se spamem omezit. Více než měsíc poté však uživatelé tento problém nadále hlásí na kanálu Discord služby Google Labs, což ukazuje, že oprava chyb ve velkých modelech umělé inteligence není snadná.

Stejně jako předchozí modely Googlu pro tvorbu videí s umělou inteligencí je i Veo 3 placený model s cenou od 249,99 dolarů měsíčně. Pro vytvoření 8sekundového videa zadají uživatelé popis do Flow, Gemini nebo jiné platformy. Každé vytvoření klipu pomocí Veo 3 stojí nejméně 20 kreditů s umělou inteligencí a uživatelé si mohou kredity dobít za 25 dolarů, což představuje 2 500 kreditů.

Mona Weiss, reklamní ředitelka, říká, že opětovné vytváření záběrů za účelem odstranění titulků se stává značným výdajem. „Pokud vytvoříte scénu s dialogy pomocí Veo3, asi 40 % výstupu bude mít bezvýznamné titulky, takže video bude nepoužitelné,“ říká. „Získání scény, která se vám líbí, stojí spoustu peněz, ale nakonec je nepoužitelná.“

Mohlo by vás zajímat

Zalo vylepšuje ochranu účtu pomocí funkce dvoufaktorového ověřování.Aby Zalo poskytlo desítkám milionů uživatelů bezpečný a soukromý online zážitek, vylepšilo svou funkci dvoufaktorového ověřování, která pomáhá uživatelům chránit jejich účty.

Francouzský velvyslanec ve Vietnamu: Nesmíme dovolit, aby umělá inteligence rozhodovala za lidi.DNVN - Na semináři „Umělá inteligence (AI) a digitální technologie: Směrem k etickému a zodpovědnému uplatňování“, který se konal 29. června, francouzský velvyslanec Olivier Brochet zdůraznil důležitost etického a zodpovědného uplatňování AI a zároveň potvrdil, že lidé si musí vždy udržet vedoucí roli v rychlém rozvoji technologií.

Usnesení č. 57-NQ/TW: Položení základů pro národní rozvoj v nové fázi.Odpoledne 1. července na konferenci shrnující první rok a šest měsíců implementace usnesení č. 57-NQ/TW, kterou uspořádal Ústřední řídící výbor pro vědu, technologie, inovace a digitální transformaci, člen Ústředního výboru a vedoucí Ústřední stranické kanceláře Nguyen Hai Ninh, zástupce vedoucího řídícího výboru, uvedl, že po roce a šesti měsících implementace bylo na celostátní úrovni urychleně a synchronně provedeno vedení, řízení a organizace implementace, což vedlo k jasným změnám v oblasti institucionálního zlepšování, digitální transformace, rozvoje vědy a techniky a inovací…

Nesmyslné titulky se na Veo 3 obtížně odstraňují. Foto: Technology Review .

Když Weiss nahlásila problém Google Labs přes Discord v naději, že získá zpět své promarněné kredity, tým podpory ji odkázal na oficiální oddělení podpory společnosti. Nabídli jí vrácení peněz za předplatné Veo 3, ale ne za kredity. Weiss odmítla, protože přijetí vrácení peněz by znamenalo ztrátu přístupu k modelu.

Tým podpory Google Labs Discord uvedl, že titulky se mohou automaticky aktivovat, pokud je detekován hlas, a na opravě této chyby pracují.

Problém pramení z přístupu Googlu.

Důvod, proč Veo 3 automaticky vkládá titulky, pramení z dat, na kterých byl model trénován.

Ačkoli Google nezveřejnil podrobnosti o kategoriích dat použitých k trénování svých modelů, pravděpodobně zahrnuje videa z platforem, jako jsou YouTube a TikTok, z nichž mnohé obsahují titulky. Tyto titulky jsou vloženy přímo do videozáznamů, takže je obtížné je odstranit před použitím jako trénovací data, uvádí Shuo Niu, výzkumník v oblasti platforem pro sdílení videa a umělé inteligence na Clark University (Massachusetts, USA).

„Modely převodu textu na video jsou trénovány pomocí posilovacího učení k vytváření obsahu, který napodobuje videa vytvořená člověkem, a pokud tato videa mají titulky, model se může „naučit“, že přidání titulků činí produkt více podobným videu vytvořenému člověkem,“ vysvětlil.

Veo 3 byl ovlivněn daty z trénování modelů z videí na YouTube a TikToku. Obrázek: Mashable .

Mluvčí Googlu uvedl: „Neustále vylepšujeme naše možnosti tvorby videí, zejména pokud jde o text, přirozeně znějící hlas a dokonale synchronizovaný zvuk. Uživatele vyzýváme, aby příkaz zopakovali, pokud shledají výsledky nekonzistentními, a poskytli nám zpětnou vazbu prostřednictvím funkce „To se mi líbí“ nebo „Nelíbí se mi“.

Spojené státy - Vietnam: Nepropásněte

Vietnam povzbuzuje americké firmy k rozšíření investic do vyspělých technologií.Ráno 26. června v sídle vlády přijal místopředseda vlády Ho Quoc Dung pana Jeffa Place, ředitele dodavatelského řetězce společnosti Coherent Group (USA). Během setkání místopředseda vlády potvrdil, že Vietnam povzbuzuje americké podniky k rozšíření investic, zejména v oblasti high-tech, inovací a polovodičového průmyslu.

Povzbuzovat americké firmy k rozšíření investic do high-tech odvětví.Místopředseda vlády Ho Quoc Dung uvedl, že Vietnam vítá, aby americké firmy pokračovaly v rozšiřování svých aktivit ve Vietnamu, zejména v technologicky vyspělých odvětvích a sektorech s vysokou přidanou hodnotou.

Vietnam a Spojené státy posilují spolupráci při řešení následků války.VTV.vn - Generální tajemník a prezident To Lam přijal 22. června úřadujícího tajemníka amerického námořnictva Hung Caa.

Důvod, proč tento model ignoruje výzvy jako „Žádné titulky“, je ten, že negativní výroky (které AI instruují, aby něco nedělala) jsou obecně méně účinné než afirmativní výzvy, tvrdí Tuhin Chakrabarty, výzkumník v oblasti systémů umělé inteligence na Stony Brook University.

Aby Google problém zcela vyřešil, bude muset prozkoumat každý snímek všech videí použitých k trénování Veo 3 a poté videa odstranit nebo přeznačit titulky, než model znovu natrénuje. To bude trvat týdny, dodal Chakrabarty.

Kateřina Cizek, dokumentaristka a umělecká ředitelka v MIT Open Documentary Lab, tvrdí, že tento problém ukazuje ochotu Googlu vydávat produkty, které ještě nejsou zcela dokončeny.

„Google potřebuje vítězství,“ prohlásil Cizek. „Musí být první, kdo vydá nástroj, který dokáže vytvářet zvuk odpovídající pohybům rtů. A to je důležitější než oprava problému s titulky.“

Zdroj: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html