
Veo3 – це найновіша модель штучного інтелекту від Google, запущена наприкінці травня, яка дозволяє користувачам створювати відео на основі голосових команд. Ця модель привернула увагу спільноти створення контенту, оскільки вона дозволяє створювати відео зі звуком та діалогами, функція, недоступна в попередніх версіях моделі Google, що робить їх більш реалістичними.
Багато користувачів використовують відеокліпи Veo 3 тривалістю до 8 секунд для створення рекламних роликів, ASMR-відео, трейлерів фентезійних фільмів та гумористичних вуличних інтерв'ю.
Номінований на премію «Оскар» режисер Даррен Аронофскі використав цей інструмент для створення короткометражного фільму під назвою «Ancestra». На прес-конференції генеральний директор Google DeepMind Деміс Хассабіс порівняв Veo 3 із кроком «виходу з ери німого кіно» в кінематографі.
Субтитри до фільму "Persistent" з Veo 3
Однак багато користувачів виявили, що цей інструмент працює неналежним чином. Під час створення кліпів із діалогами Veo 3 часто автоматично вставляє безглузді, плутані субтитри, навіть коли в команді чітко зазначено, що субтитри не додавати.
Видалити ці субтитри непросто. Користувачі змушені відтворювати кліп, витрачаючи «токени», що означає витратити більше грошей на Google, або використовувати зовнішні інструменти для видалення субтитрів, або обрізати відео, щоб видалити субтитри.
![]() |
Veo 3 створює реалістичні візуальні ефекти та діалоги, що відповідають рухам губ, але субтитри беззмістовні. Фото: Lesswrong . |
Джош Вудворд, віцепрезидент Google Labs та Gemini, 9 червня опублікував на X, що Google розробив патчі для зменшення проблеми зі спамом. Але понад місяць потому користувачі продовжують повідомляти про цю проблему на каналі Discord Google Labs, показуючи, що виправлення помилок у великих моделях штучного інтелекту непросте.
Як і попередні моделі Google для створення відео зі штучним інтелектом, Veo 3 є платною моделлю, вартість якої починається від 249,99 доларів на місяць. Щоб створити 8-секундне відео, користувачі вводять опис у Flow, Gemini або на іншій платформі. Кожне створення кліпу за допомогою Veo 3 коштує щонайменше 20 кредитів зі штучним інтелектом, і користувачі можуть поповнити свій рахунок на 25 доларів, що становить 2500 кредитів.
Мона Вайс, комерційний директор, каже, що відтворення відзнятого матеріалу для видалення субтитрів стає значними витратами. «Якщо ви створюєте сцену з діалогами за допомогою Veo3, близько 40% результату матимуть безглузді субтитри, що зробить відео непридатним для використання», – каже вона. «Отримати сцену, яка вам подобається, коштує чимало грошей, але зрештою вона виявляється непридатною для використання».
![]() |
Беззмістовні субтитри важко видалити на Veo 3. Фото: Technology Review . |
Коли Вайс повідомила про проблему до Google Labs через Discord, сподіваючись повернути свої витрачені кредити, команда підтримки направила її до офіційного відділу підтримки компанії. Вони запропонували повернення коштів за підписку на Veo 3, але не за кредити. Вайс відмовилася, оскільки прийняття повернення коштів означало б втрату доступу до моделі.
Служба підтримки Discord у Google Labs заявила, що субтитри можуть автоматично активуватися, якщо розпізнається голос, і вони працюють над виправленням цієї помилки.
Проблема виникає через підхід Google.
Причина, чому Veo 3 автоматично вставляє субтитри, пов'язана з даними, на яких навчалася модель.
Хоча Google не оприлюднив подробиці щодо категорій даних, що використовуються для навчання його моделей, вони, ймовірно, включають відео з таких платформ, як YouTube та TikTok, багато з яких містять субтитри. Ці субтитри вбудовані безпосередньо у відеокадри, що ускладнює їх видалення перед використанням як навчальних даних, за словами Шуо Ніу, дослідника платформ обміну відео та штучного інтелекту в Університеті Кларка (Массачусетс, США).
«Моделі перетворення тексту у відео навчаються за допомогою навчання з підкріпленням для створення контенту, який імітує відео, створені людиною, і якщо ці відео мають субтитри, модель може «навчитися», що додавання субтитрів робить продукт більш схожим на відео, створене людиною», – пояснив він.
![]() |
На Veo 3 вплинули дані навчання моделі з відео YouTube та TikTok. Зображення: Mashable . |
Речник Google заявив: «Ми постійно вдосконалюємо наші можливості зі створення відео, особливо з точки зору тексту, природного звучання голосу та ідеально синхронізованого аудіо. Ми закликаємо користувачів повторити команду, якщо вони вважають результати невідповідними, та надати нам відгук за допомогою функції «подобається» або «не подобається».
Крім того, причина, чому ця модель ігнорує підказки на кшталт «Без субтитрів», полягає в тому, що негативні твердження (які вказують штучному інтелекту не робити чогось) зазвичай менш ефективні, ніж стверджувальні підказки, за словами Тухіна Чакрабарті, дослідника систем штучного інтелекту в Університеті Стоуні-Брук.
Щоб повністю вирішити проблему, Google доведеться перевірити кожен кадр усіх відео, що використовуються для навчання Veo 3, а потім видалити відео або переназначити їх субтитрами перед повторним навчанням моделі. Це займе тижні, додав Чакрабарті.
Катерина Ціжек, режисерка-документалістка та арт-директорка Відкритої лабораторії документального кіно MIT, стверджує, що ця проблема демонструє готовність Google випускати продукти, які ще не повністю завершені.
«Google потрібна перемога», – заявив Чіжек. «Їм потрібно першими випустити інструмент, який може створювати аудіо, що відповідає рухам губ. І це важливіше, ніж виправлення проблеми із субтитрами».
Джерело: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Коментар (0)