Największy problem z Veo 3

Ten model sztucznej inteligencji automatycznie wstawia chaotyczne, bezsensowne napisy do filmów ponad miesiąc po premierze. Ta sytuacja pokazuje, że Google jest skłonne wypuszczać niedokończone produkty, aby zademonstrować możliwości swojej sztucznej inteligencji.

ZNews•19/07/2025

Veo3 to najnowszy model sztucznej inteligencji Google, wprowadzony na rynek pod koniec maja, który umożliwia użytkownikom tworzenie filmów za pomocą poleceń głosowych. Model ten przyciągnął uwagę społeczności twórców treści, ponieważ umożliwia tworzenie filmów z dźwiękiem i dialogami, co nie było dostępne w poprzednich wersjach modelu Google, czyniąc je bardziej realistycznymi.

Wielu użytkowników wykorzystuje klipy wideo Veo 3, trwające do 8 sekund, do tworzenia reklam, filmów ASMR, zwiastunów filmów fantasy i zabawnych wywiadów ulicznych.

Nominowany do Oscara reżyser Darren Aronofsky wykorzystał to narzędzie do stworzenia krótkometrażowego filmu „Ancestra”. Na konferencji prasowej, prezes Google DeepMind, Demis Hassabis, porównał Veo 3 do „wyjścia z ery kina niemego” w kinie.

„Trwałe” napisy z Veo 3

Jednak wielu użytkowników stwierdziło, że to narzędzie nie działa zgodnie z oczekiwaniami. Podczas tworzenia klipów z dialogami, Veo 3 często automatycznie wstawia bezsensowne, chaotyczne napisy, nawet gdy polecenie wyraźnie wskazuje, aby ich nie dodawać.

Usunięcie tych napisów nie jest proste. Użytkownicy są zmuszeni odtworzyć klip, wydając „tokeny”, co oznacza konieczność wydania dodatkowych pieniędzy w Google, lub skorzystać z zewnętrznych narzędzi do usuwania napisów, albo przyciąć film, aby usunąć napisy.

Veo 3 generuje realistyczne efekty wizualne i dialogi, które pasują do ruchów ust, ale napisy są bezsensowne. Zdjęcie: Lesswrong .

Josh Woodward, wiceprezes Google Labs i Gemini, opublikował 9 czerwca na X informację, że Google opracowało poprawki ograniczające problem ze spamem. Jednak ponad miesiąc później użytkownicy nadal zgłaszają ten problem na kanale Discord Google Labs, pokazując, że naprawianie błędów w dużych modelach sztucznej inteligencji nie jest łatwe.

Podobnie jak poprzednie modele Google do tworzenia filmów z wykorzystaniem sztucznej inteligencji, Veo 3 jest modelem płatnym, którego cena zaczyna się od 249,99 USD miesięcznie. Aby utworzyć 8-sekundowy film, użytkownicy wprowadzają opis do Flow, Gemini lub innej platformy. Każdy klip stworzony za pomocą Veo 3 kosztuje co najmniej 20 kredytów AI, a użytkownicy mogą doładować go kwotą 25 USD, aby uzyskać 2500 kredytów.

Mona Weiss, reżyserka reklam, twierdzi, że ponowne tworzenie materiału filmowego w celu usunięcia napisów staje się znaczącym wydatkiem. „Jeśli stworzysz scenę z dialogami za pomocą Veo3, około 40% nagrania będzie zawierało bezsensowne napisy, przez co film będzie bezużyteczny” – mówi. „Stworzenie sceny, która się podoba, kosztuje dużo pieniędzy, ale ostatecznie okazuje się, że jest ona bezużyteczna”.

Może ci się spodobać

Układy pamięci są rzadkością w dobie sztucznej inteligencji.VTV.vn - Szaleństwo na punkcie sztucznej inteligencji ogranicza dostępność pamięci, a dostawcy priorytetowo traktują dużych klientów, co podnosi koszty dla małych firm.

Lionel Messi i Cristiano Ronaldo byli najczęściej wyszukiwanymi piłkarzami podczas fazy grupowej Mistrzostw Świata.Najnowsze dane pokazują wzrost o 1550% liczby wyszukiwań słów kluczowych związanych z Mistrzostwami Świata w Piłce Nożnej 2026, przy czym Lionel Messi i Cristiano Ronaldo byli dwoma najczęściej wyszukiwanymi zawodnikami w fazie grupowej.

Australia wdraża nową „tarczę” chroniącą przed wiadomościami phishingowymi.Od początku 2026 roku Australijskie Narodowe Centrum Zwalczania Oszustw przekazało firmom telekomunikacyjnym w celu przetworzenia listę ponad 4200 podejrzanych numerów telefonów i 825 identyfikatorów nadawcy.

Trudno usunąć na Veo 3 bezsensowne napisy. Zdjęcie: Technology Review .

Kiedy Weiss zgłosiła problem do Google Labs za pośrednictwem Discorda, licząc na odzyskanie zmarnowanych kredytów, zespół wsparcia odesłał ją do oficjalnego działu wsparcia firmy. Zaoferowali zwrot opłaty za subskrypcję Veo 3, ale nie samych kredytów. Weiss odmówiła, ponieważ przyjęcie zwrotu oznaczałoby utratę dostępu do modelu.

Zespół pomocy technicznej Discord Google Labs poinformował, że napisy mogą zostać automatycznie aktywowane w przypadku wykrycia głosu i pracuje nad rozwiązaniem tego błędu.

Problem wynika z podejścia Google.

Powodem, dla którego Veo 3 automatycznie wstawia napisy, są dane, na których trenowano model.

Chociaż Google nie ujawniło szczegółów dotyczących kategorii danych użytych do trenowania swoich modeli, prawdopodobnie obejmują one filmy z platform takich jak YouTube i TikTok, z których wiele zawiera napisy. Według Shuo Niu, badacza platform udostępniania wideo i sztucznej inteligencji z Clark University (Massachusetts, USA), napisy te są osadzone bezpośrednio w klatkach wideo, co utrudnia ich usunięcie przed wykorzystaniem jako danych treningowych.

„Modele przekształcające tekst na wideo są trenowane przy użyciu uczenia przez wzmacnianie, aby tworzyć treści, które naśladują filmy stworzone przez ludzi. Jeśli te filmy mają napisy, model może się „nauczyć”, że dodanie napisów sprawia, że produkt bardziej przypomina film stworzony przez ludzi” – wyjaśnił.

Na Veo 3 wpłynęły dane treningowe modelu pochodzące z filmów na YouTube i TikToku. Zdjęcie: Mashable .

Rzecznik Google powiedział: „Nieustannie udoskonalamy nasze możliwości tworzenia filmów, szczególnie pod względem tekstu, naturalnie brzmiącego głosu i idealnie zsynchronizowanego dźwięku. Zachęcamy użytkowników do ponownego wypróbowania polecenia, jeśli wyniki okażą się niespójne, i do przekazania nam opinii za pomocą funkcji „Lubię to” lub „Nie lubię tego”.

Stany Zjednoczone - Wietnam: Nie przegap

Wietnam zachęca amerykańskie przedsiębiorstwa do zwiększenia inwestycji w zaawansowane technologie.Rankiem 26 czerwca w siedzibie rządu wicepremier Ho Quoc Dung przyjął Jeffa Place'a, dyrektora ds. łańcucha dostaw w Coherent Group (USA). Podczas spotkania wicepremier potwierdził, że Wietnam zachęca amerykańskie firmy do zwiększania inwestycji, zwłaszcza w branżę zaawansowanych technologii, innowacji i półprzewodników.

Zachęcać amerykańskie przedsiębiorstwa do zwiększenia inwestycji w sektorach zaawansowanych technologii.Wicepremier Ho Quoc Dung powiedział, że Wietnam chętnie przyjmie amerykańskie przedsiębiorstwa do dalszego rozszerzania swojej działalności na terenie Wietnamu, szczególnie w branżach high-tech i sektorach o wysokiej wartości dodanej.

Wietnam i Stany Zjednoczone zacieśniają współpracę w radzeniu sobie ze skutkami wojny.VTV.vn - 22 czerwca Sekretarz Generalny i Prezydent To Lam przyjął pełniącego obowiązki Sekretarza Marynarki Wojennej USA Hung Cao.

Co więcej, według Tuhina Chakrabarty'ego, badacza systemów AI na Uniwersytecie Stony Brook, powodem, dla którego ten model ignoruje komunikaty takie jak „Brak napisów”, jest to, że negatywne stwierdzenia (instruujące sztuczną inteligencję, aby czegoś nie robiła) są na ogół mniej skuteczne niż komunikaty twierdzące.

Aby całkowicie rozwiązać ten problem, Google będzie musiało przeanalizować każdą klatkę wszystkich filmów użytych do trenowania Veo 3, a następnie usunąć lub ponownie oznaczyć filmy napisami przed ponownym trenowaniem modelu. Zajmie to tygodnie, dodał Chakrabarty.

Katerina Cizek, autorka filmów dokumentalnych i dyrektor artystyczna w MIT Open Documentary Lab, uważa, że problem ten pokazuje, że Google jest skłonne wypuszczać na rynek produkty, które nie są jeszcze w pełni ukończone.

„Google potrzebuje zwycięstwa” – stwierdził Cizek. „Muszą jako pierwsi wypuścić narzędzie, które będzie w stanie tworzyć dźwięk dopasowany do ruchu ust. A to jest ważniejsze niż rozwiązanie problemu z napisami”.

Źródło: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html