Велика проблема з Veo 3

Ця модель штучного інтелекту автоматично вставляє безладні, безглузді субтитри у відео більш ніж через місяць після свого запуску. Ця ситуація показує, що Google готовий випускати незавершені продукти, щоб продемонструвати свої можливості штучного інтелекту.

ZNews•19/07/2025

Veo3 – це найновіша модель штучного інтелекту від Google, запущена наприкінці травня, яка дозволяє користувачам створювати відео на основі голосових команд. Ця модель привернула увагу спільноти створення контенту, оскільки вона дозволяє створювати відео зі звуком та діалогами, функція, недоступна в попередніх версіях моделі Google, що робить їх більш реалістичними.

Багато користувачів використовують відеокліпи Veo 3 тривалістю до 8 секунд для створення рекламних роликів, ASMR-відео, трейлерів фентезійних фільмів та гумористичних вуличних інтерв'ю.

Номінований на премію «Оскар» режисер Даррен Аронофскі використав цей інструмент для створення короткометражного фільму під назвою «Ancestra». На прес-конференції генеральний директор Google DeepMind Деміс Хассабіс порівняв Veo 3 із кроком «виходу з ери німого кіно» в кінематографі.

Субтитри до фільму "Persistent" з Veo 3

Однак багато користувачів виявили, що цей інструмент працює неналежним чином. Під час створення кліпів із діалогами Veo 3 часто автоматично вставляє безглузді, плутані субтитри, навіть коли в команді чітко зазначено, що субтитри не додавати.

Видалити ці субтитри непросто. Користувачі змушені відтворювати кліп, витрачаючи «токени», що означає витратити більше грошей на Google, або використовувати зовнішні інструменти для видалення субтитрів, або обрізати відео, щоб видалити субтитри.

Veo 3 створює реалістичні візуальні ефекти та діалоги, що відповідають рухам губ, але субтитри беззмістовні. Фото: Lesswrong .

Джош Вудворд, віцепрезидент Google Labs та Gemini, 9 червня опублікував на X, що Google розробив патчі для зменшення проблеми зі спамом. Але понад місяць потому користувачі продовжують повідомляти про цю проблему на каналі Discord Google Labs, показуючи, що виправлення помилок у великих моделях штучного інтелекту непросте.

Як і попередні моделі Google для створення відео зі штучним інтелектом, Veo 3 є платною моделлю, вартість якої починається від 249,99 доларів на місяць. Щоб створити 8-секундне відео, користувачі вводять опис у Flow, Gemini або на іншій платформі. Кожне створення кліпу за допомогою Veo 3 коштує щонайменше 20 кредитів зі штучним інтелектом, і користувачі можуть поповнити свій рахунок на 25 доларів, що становить 2500 кредитів.

Мона Вайс, комерційний директор, каже, що відтворення відзнятого матеріалу для видалення субтитрів стає значними витратами. «Якщо ви створюєте сцену з діалогами за допомогою Veo3, близько 40% результату матимуть безглузді субтитри, що зробить відео непридатним для використання», – каже вона. «Отримати сцену, яка вам подобається, коштує чимало грошей, але зрештою вона виявляється непридатною для використання».

Вам також може сподобатися

Чіпи пам'яті є рідкісними у хвилі штучного інтелекту.VTV.vn - Через шалений політ штучного інтелекту постачальники пам'яті звужують її, адже вони надають пріоритет великим клієнтам і збільшують витрати для малого бізнесу.

Ліонель Мессі та Кріштіану Роналду були найпопулярнішими гравцями в пошуку під час групового етапу чемпіонату світу.Останні дані показують зростання на 1550% кількості пошукових запитів за ключовими словами, пов'язаними з Чемпіонатом світу з футболу 2026 року, тоді як Ліонель Мессі та Кріштіану Роналду були двома найчастіше шуканими гравцями під час групового етапу.

Беззмістовні субтитри важко видалити на Veo 3. Фото: Technology Review .

Коли Вайс повідомила про проблему до Google Labs через Discord, сподіваючись повернути свої витрачені кредити, команда підтримки направила її до офіційного відділу підтримки компанії. Вони запропонували повернення коштів за підписку на Veo 3, але не за кредити. Вайс відмовилася, оскільки прийняття повернення коштів означало б втрату доступу до моделі.

Служба підтримки Discord у Google Labs заявила, що субтитри можуть автоматично активуватися, якщо розпізнається голос, і вони працюють над виправленням цієї помилки.

Проблема виникає через підхід Google.

Причина, чому Veo 3 автоматично вставляє субтитри, пов'язана з даними, на яких навчалася модель.

Хоча Google не оприлюднив детальну інформацію про категорії даних, що використовуються для навчання його моделей, ймовірно, вони включають відео з таких платформ, як YouTube та TikTok, багато з яких містять субтитри. Ці субтитри вбудовані безпосередньо у відеокадри, що ускладнює їх видалення перед використанням як навчальних даних, за словами Шуо Ніу, дослідника платформ обміну відео та штучного інтелекту в Університеті Кларка (Массачусетс, США).

«Моделі перетворення тексту у відео навчаються за допомогою навчання з підкріпленням для створення контенту, який імітує відео, створені людиною, і якщо ці відео мають субтитри, модель може «навчитися», що додавання субтитрів робить продукт більш схожим на відео, створене людиною», – пояснив він.

На Veo 3 вплинули дані навчання моделі з відео YouTube та TikTok. Зображення: Mashable .

Речник Google заявив: «Ми постійно вдосконалюємо наші можливості зі створення відео, особливо з точки зору тексту, природного звучання голосу та ідеально синхронізованого аудіо. Ми закликаємо користувачів повторити команду, якщо вони вважають результати невідповідними, та надати нам відгук за допомогою функції «подобається» або «не подобається».

Сполучені Штати - Вʼєтнам: Не пропустіть

В'єтнам заохочує американський бізнес розширювати інвестиції у високі технології.Вранці 26 червня в урядовій будівлі віце-прем'єр-міністр Хо Куок Зунг прийняв пана Джеффа Плейса, директора з ланцюгів поставок Coherent Group (США). Під час зустрічі віце-прем'єр-міністр підтвердив, що В'єтнам заохочує американський бізнес розширювати інвестиції, особливо у високотехнологічну, інноваційну та напівпровідникову промисловість.

Заохочувати американський бізнес до розширення інвестицій у високотехнологічні сектори.Віце-прем'єр-міністр Хо Куок Зунг заявив, що В'єтнам вітає американські компанії, які продовжують розширювати свою діяльність у В'єтнамі, особливо у високотехнологічних галузях промисловості та секторах з високою доданою вартістю.

В'єтнам і Сполучені Штати зміцнюють співпрацю у подоланні наслідків війни.VTV.vn - 22 червня Генеральний секретар і президент То Лам прийняв виконуючого обов'язки секретаря ВМС США Хун Цао.

Крім того, причина, чому ця модель ігнорує підказки на кшталт «Без субтитрів», полягає в тому, що негативні твердження (які вказують штучному інтелекту не робити чогось) зазвичай менш ефективні, ніж стверджувальні підказки, за словами Тухіна Чакрабарті, дослідника систем штучного інтелекту в Університеті Стоуні-Брук.

Щоб повністю вирішити проблему, Google доведеться перевірити кожен кадр усіх відео, що використовуються для навчання Veo 3, а потім видалити відео або переназначити їх субтитрами перед повторним навчанням моделі. Це займе тижні, додав Чакрабарті.

Катерина Ціжек, режисерка-документалістка та арт-директорка Відкритої лабораторії документального кіно MIT, стверджує, що ця проблема демонструє готовність Google випускати продукти, які ще не повністю завершені.

«Google потрібна перемога», – заявив Чіжек. «Їм потрібно першими випустити інструмент, який може створювати аудіо, що відповідає рухам губ. І це важливіше, ніж виправлення проблеми із субтитрами».

Джерело: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html