Vietnam.vn - Nền tảng quảng bá Việt Nam

Duży problem Veo 3

Ten model sztucznej inteligencji automatycznie wstawia do filmów bełkotliwe, pozbawione sensu napisy nawet po upływie miesiąca od jego uruchomienia. To pokazuje, że Google jest skłonne wypuścić niedokończone produkty, aby zademonstrować możliwości swojej sztucznej inteligencji.

ZNewsZNews19/07/2025

Veo3 to najnowszy model sztucznej inteligencji Google, wprowadzony na rynek pod koniec maja, umożliwiający generowanie filmów na podstawie poleceń. Model ten przyciągnął uwagę społeczności twórców treści, ponieważ umożliwia tworzenie filmów z dźwiękiem i dialogami – funkcji niedostępnej w poprzedniej wersji modelu Google, co czyni je bardziej realistycznymi.

Wielu użytkowników korzysta z filmów Veo 3, które trwają do 8 sekund, aby tworzyć reklamy, filmy ASMR, zwiastuny filmów fantasy i zabawne wywiady uliczne.

Nominowany do Oscara reżyser Darren Aronofsky użył tego narzędzia do stworzenia krótkometrażowego filmu „Ancestra”. Podczas konferencji prasowej, prezes Google DeepMind, Demis Hassabis, porównał Veo 3 do odejścia od ery kina niemego.

„Trwałe” napisy z Veo 3

Wielu użytkowników stwierdziło jednak, że narzędzie nie działa zgodnie z oczekiwaniami. Podczas tworzenia klipów z dialogami, Veo 3 często automatycznie wstawia bezsensowne, chaotyczne napisy, nawet gdy polecenie wyraźnie zabrania dodawania napisów.

Usunięcie tych napisów nie jest proste. Użytkownicy są zmuszeni do ponownego utworzenia klipu, wydania „tokenów”, co oznacza dodatkowe koszty dla Google, skorzystania z zewnętrznego narzędzia do usuwania napisów lub przycięcia filmu w celu usunięcia napisów.

video AI anh 1

Veo 3 generuje realistyczne obrazy, dialogi odzwierciedlają ruchy ust, ale napisy są bezsensowne. Zdjęcie: Lesswrong .

Josh Woodward, wiceprezes Google Labs i Gemini, opublikował 9 czerwca na X informację, że Google opracowało poprawki ograniczające spam. Jednak ponad miesiąc później użytkownicy nadal zgłaszają ten problem na kanale Google Labs na Discordzie, pokazując, że naprawianie błędów w dużych modelach sztucznej inteligencji nie jest łatwe.

Podobnie jak poprzednie modele AI do generowania wideo firmy Google, Veo 3 jest modelem płatnym, którego cena zaczyna się od 249,99 USD miesięcznie. Aby utworzyć 8-sekundowy film, użytkownicy wprowadzają opis w Flow, Gemini lub innej platformie. Każdy klip stworzony za pomocą Veo 3 kosztuje co najmniej 20 kredytów AI, a użytkownicy mogą doładować go kwotą 2500 kredytów za 25 USD .

Mona Weiss, reżyserka reklam, powiedziała, że ​​ponowne tworzenie materiału filmowego w celu usunięcia napisów staje się znaczącym wydatkiem. „Jeśli tworzysz scenę mówioną za pomocą Veo3, około 40% materiału wyjściowego będzie zawierało bełkotliwe napisy, które uniemożliwiają korzystanie z filmu” – powiedziała. „To duży wydatek, żeby uzyskać scenę, która ci się podoba, ale ostatecznie okazuje się ona bezużyteczna”.

video AI anh 2

Trudno usunąć bezsensowne napisy na Veo 3. Zdjęcie: Technology Review .

Kiedy Weiss zgłosiła problem do Google Labs za pośrednictwem Discorda, licząc na zwrot zmarnowanych kredytów, zespół wsparcia przekierował ją do oficjalnego działu wsparcia firmy. Zaproponowano zwrot kosztów subskrypcji Veo 3, ale nie kredytów. Weiss odmówiła, ponieważ przyjęcie zwrotu oznaczałoby utratę dostępu do modelu.

Zespół pomocy technicznej Discord Google Labs poinformował, że napisy mogą zostać włączone automatycznie, jeśli zostanie wykryta mowa, i pracuje nad rozwiązaniem tego problemu.

Problem z podejściem Google’a

Powodem, dla którego Veo 3 automatycznie wstawia napisy, są dane, na których trenowano model.

Choć Google nie ujawniło szczegółów kategorii danych użytych do trenowania modelu, prawdopodobnie obejmowały one filmy z serwisów YouTube i TikTok, z których wiele ma napisy osadzone bezpośrednio w kadrze, co utrudnia ich usunięcie przed wykorzystaniem jako danych treningowych modelu, twierdzi Shuo Niu, badacz platform do udostępniania wideo i sztucznej inteligencji z Clark University (Massachusetts, USA).

„Modele tekstu na wideo są trenowane przy użyciu uczenia przez wzmacnianie, aby generować treści, które naśladują filmy tworzone przez ludzi. Jeśli te filmy mają napisy, model może się „nauczyć”, że dodanie napisów sprawia, że ​​produkt bardziej przypomina filmy tworzone przez ludzi” – wyjaśnia.

video AI anh 3

Veo 3 korzysta z danych treningowych modelu pochodzących z filmów na YouTube i TikToku. Zdjęcie: Mashable .

„Nieustannie udoskonalamy nasze możliwości tworzenia filmów, szczególnie w zakresie tekstu, naturalnej mowy i idealnie zsynchronizowanego dźwięku” – powiedział rzecznik Google. „Zachęcamy użytkowników do ponownego wypróbowania poleceń, jeśli widzą niespójne wyniki, oraz do wyrażania opinii poprzez ich polubienie lub odrzucenie”.

Ponadto, zdaniem Tuhina Chakrabarty’ego, badacza systemów AI na Uniwersytecie Stony Brook, powodem, dla którego model ignoruje instrukcje takie jak „Brak napisów”, jest to, że negatywne stwierdzenia (proszące sztuczną inteligencję, aby czegoś nie robiła) są często mniej skuteczne niż pozytywne podpowiedzi.

Aby w pełni rozwiązać problem, Google musiałoby przeanalizować każdą klatkę wszystkich filmów użytych do trenowania Veo 3, a następnie usunąć lub ponownie opisać filmy z napisami przed ponownym trenowaniem modelu, co zajęłoby tygodnie – dodał Chakrabarty.

Katerina Cizek, reżyserka filmów dokumentalnych i dyrektor artystyczna w MIT Open Documentary Lab, uważa, że ​​problem ten pokazuje, że Google nadal jest skłonne wypuszczać produkty, które nie są jeszcze w pełni ukończone.

„Google potrzebuje zwycięstwa” – powiedział Cizek. „Muszą jako pierwsi udostępnić narzędzie dopasowujące dźwięk ruchu warg. A to jest ważniejsze niż rozwiązanie problemu z napisami”.

Źródło: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Komentarz (0)

No data
No data

W tej samej kategorii

Odwiedź U Minh Ha i poznaj zieloną turystykę w Muoi Ngot i Song Trem
Reprezentacja Wietnamu awansowała do rankingu FIFA po zwycięstwie nad Nepalem, Indonezja jest w niebezpieczeństwie
71 lat po wyzwoleniu Hanoi zachowuje piękno swojego dziedzictwa w nowoczesnym stylu
71. rocznica Dnia Wyzwolenia Stolicy – ​​rozbudzanie ducha, by Hanoi śmiało wkroczyło w nową erę

Od tego samego autora

Dziedzictwo

Postać

Biznes

No videos available

Aktualne wydarzenia

System polityczny

Lokalny

Produkt