Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

Velký problém Veo 3

Tento model umělé inteligence automaticky vkládá nesmysly do videí více než měsíc po svém spuštění, což ukazuje, že Google je ochoten vydat nedokončené produkty, aby demonstroval své schopnosti v oblasti umělé inteligence.

ZNewsZNews19/07/2025

Veo3 je nejnovější model umělé inteligence od Googlu, který byl spuštěn koncem května a umožňuje mu generovat videa na základě příkazů. Tento model přitáhl pozornost komunity tvůrců obsahu, protože umožňuje vytvářet videa se zvukem a dialogy, což je funkce, která v předchozí verzi modelu od Googlu nebyla k dispozici, a proto je realističtější.

Mnoho uživatelů používá videa Veo 3, dlouhá až 8 sekund, k tvorbě reklam, ASMR videí, trailerů k fantasy filmům a humorných pouličních rozhovorů.

Režisér nominovaný na Oscara Darren Aronofsky použil tento nástroj k vytvoření krátkého filmu s názvem Ancestra. Během tiskové konference generální ředitel společnosti Google DeepMind Demis Hassabis přirovnal Veo 3 k odklonu od éry němého filmu v kinematografii.

Titulky k filmu „Persistent“ z Veo 3

Mnoho uživatelů však zjistilo, že nástroj nefunguje podle očekávání. Při vytváření klipů s dialogy Veo 3 často automaticky vkládá nesmyslné a chaotické titulky, a to i v případě, že příkaz výslovně uvádí, že titulky přidávat nemají.

Odstranění těchto titulků není snadné. Uživatelé jsou nuceni klip znovu vytvořit, utratit „tokeny“, což pro Google znamená více peněz, nebo použít externí nástroj k odstranění titulků, případně video oříznout, aby titulky odstranili.

video AI anh 1

Veo 3 produkuje realistický obraz, dialogy odpovídají pohybům úst, ale titulky jsou bezvýznamné. Foto: Lesswrong .

Josh Woodward, viceprezident Google Labs a Gemini, 9. června na serveru X zveřejnil, že Google vyvinul záplaty k omezení spamu. Více než měsíc poté však uživatelé nadále hlásí problém na kanálu Google Labs na Discordu, což ukazuje, že oprava chyb ve velkých modelech umělé inteligence není snadná.

Stejně jako předchozí modely Google pro generování videa s umělou inteligencí je Veo 3 placený model s cenou od 249,99 dolarů měsíčně. Pro vytvoření 8sekundového videa zadají uživatelé popis do Flow, Gemini nebo jiné platformy. Každý klip vytvořený pomocí Veo 3 stojí minimálně 20 kreditů umělé inteligence a uživatelé si mohou kredity dobít za 25 dolarů, což představuje 2 500 kreditů.

Mona Weissová, obchodní ředitelka, uvedla, že opětovné vytváření záběrů za účelem odstranění titulků se stává značným výdajem. „Pokud vytvoříte mluvenou scénu ve Veo3, asi 40 % výstupu bude mít nesmyslné titulky, které video znemožní,“ řekla. „Je to spousta peněz, abyste získali scénu, která se vám líbí a není použitelná.“

video AI anh 2

Nesmyslné titulky se na Veo 3 těžko odstraňují. Foto: Technology Review .

Když Weiss nahlásila problém Google Labs přes Discord v naději, že jí vrátí promarněné kredity, tým podpory ji přepojil na oficiální oddělení podpory společnosti. Nabídli jí vrácení peněz za předplatné Veo 3, ale ne kredity. Weiss odmítla, protože přijetí vrácení peněz by znamenalo ztrátu přístupu k modelu.

Tým podpory Discordu v Google Labs uvedl, že titulky lze automaticky povolit, pokud je detekována řeč, a že na opravě pracují.

Problém s přístupem Googlu

Důvod, proč Veo 3 automaticky vkládá titulky, pochází z dat, na kterých je model trénován.

Ačkoli Google nezveřejnil kategorie dat použité k trénování modelu, pravděpodobně zahrnovaly videa z YouTube a TikToku, z nichž mnohé mají titulky vložené přímo do snímku, což ztěžuje jejich odstranění před použitím jako trénovací data, uvedl Shuo Niu, výzkumník platforem pro sdílení videa a umělé inteligence na Clark University v Massachusetts.

„Modely převodu textu na video jsou trénovány pomocí posilovacího učení, aby generovaly obsah, který napodobuje videa generovaná lidmi, a pokud tato videa mají titulky, model se může „naučit“, že přidání titulků činí produkt více podobným videím generovaným lidmi,“ vysvětluje.

video AI anh 3

Veo 3 je ovlivněn daty z trénování modelů z videí na YouTube a TikToku. Foto: Mashable .

„Neustále vylepšujeme naše možnosti tvorby videa, zejména pokud jde o text, přirozenou řeč a dokonale synchronizovaný zvuk,“ uvedl mluvčí Googlu. „Vyzýváme uživatele, aby v případě nekonzistentních výsledků zopakovali zadání příkazu a poskytli nám zpětnou vazbu tím, že nám výsledky označí „Líbí se mi“ nebo „Nelíbí se mi.“

Důvod, proč model ignoruje pokyny jako „Žádné titulky“, je navíc ten, že negativní výroky (žádající umělou inteligenci, aby něco nedělala) jsou často méně účinné než pozitivní výzvy, tvrdí Tuhin Chakrabarty, výzkumník v oblasti systémů umělé inteligence na Stony Brook University.

Aby Google problém plně vyřešil, musel by prozkoumat každý snímek všech videí, která použil k trénování Veo 3, a poté videa odstranit nebo přeznačit titulky, než by model znovu trénoval, což by trvalo týdny, dodal Chakrabarty.

Kateřina Cizek, dokumentaristka a umělecká ředitelka v MIT Open Documentary Lab, říká, že problém ukazuje, že Google je stále ochoten vydávat produkty, které ještě nejsou zcela dokončeny.

„Google potřebuje vítězství,“ řekl Cizek. „Musí být první, kdo vydá nástroj, který dokáže napodobit zvuk jejich rtů. A to je důležitější než vyřešení problému s titulky.“

Zdroj: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Komentář (0)

No data
No data

Ve stejné kategorii

Y Ty je brilantní se zlatou barvou zralého rýžového období
Stará ulice Hang Ma se „převléká“ na uvítanou Svátku středu podzimu
Fialový kopec Suoi Bon kvete mezi plovoucím mořem mraků v Son La
Turisté se hrnou do Y Ty, obklopeného nejkrásnějšími terasovitými poli na severozápadě.

Od stejného autora

Dědictví

Postava

Obchod

No videos available

Zprávy

Politický systém

Místní

Produkt