Vietnam.vn - Nền tảng quảng bá Việt Nam

Największy problem z Veo 3

Ten model sztucznej inteligencji automatycznie wstawia chaotyczne, bezsensowne napisy do filmów ponad miesiąc po premierze. Ta sytuacja pokazuje, że Google jest skłonne wypuszczać niedokończone produkty, aby zademonstrować możliwości swojej sztucznej inteligencji.

ZNewsZNews19/07/2025

Veo3 to najnowszy model sztucznej inteligencji Google, wprowadzony na rynek pod koniec maja, który umożliwia użytkownikom tworzenie filmów za pomocą poleceń głosowych. Model ten przyciągnął uwagę społeczności twórców treści, ponieważ umożliwia tworzenie filmów z dźwiękiem i dialogami, co nie było dostępne w poprzednich wersjach modelu Google, czyniąc je bardziej realistycznymi.

Wielu użytkowników wykorzystuje klipy wideo Veo 3, trwające do 8 sekund, do tworzenia reklam, filmów ASMR, zwiastunów filmów fantasy i zabawnych wywiadów ulicznych.

Nominowany do Oscara reżyser Darren Aronofsky wykorzystał to narzędzie do stworzenia krótkometrażowego filmu „Ancestra”. Na konferencji prasowej, prezes Google DeepMind, Demis Hassabis, porównał Veo 3 do „wyjścia z ery kina niemego” w kinie.

„Trwałe” napisy z Veo 3

Jednak wielu użytkowników stwierdziło, że to narzędzie nie działa zgodnie z oczekiwaniami. Podczas tworzenia klipów z dialogami, Veo 3 często automatycznie wstawia bezsensowne, chaotyczne napisy, nawet gdy polecenie wyraźnie wskazuje, aby ich nie dodawać.

Usunięcie tych napisów nie jest proste. Użytkownicy są zmuszeni odtworzyć klip, wydając „tokeny”, co oznacza konieczność wydania dodatkowych pieniędzy w Google, lub skorzystać z zewnętrznych narzędzi do usuwania napisów, albo przyciąć film, aby usunąć napisy.

video AI anh 1

Veo 3 generuje realistyczne efekty wizualne i dialogi, które pasują do ruchów ust, ale napisy są bezsensowne. Zdjęcie: Lesswrong .

Josh Woodward, wiceprezes Google Labs i Gemini, opublikował 9 czerwca na X informację, że Google opracowało poprawki ograniczające problem ze spamem. Jednak ponad miesiąc później użytkownicy nadal zgłaszają ten problem na kanale Discord Google Labs, pokazując, że naprawianie błędów w dużych modelach sztucznej inteligencji nie jest łatwe.

Podobnie jak poprzednie modele Google do tworzenia filmów z wykorzystaniem sztucznej inteligencji, Veo 3 jest modelem płatnym, którego cena zaczyna się od 249,99 USD miesięcznie. Aby utworzyć 8-sekundowy film, użytkownicy wprowadzają opis do Flow, Gemini lub innej platformy. Każdy klip stworzony za pomocą Veo 3 kosztuje co najmniej 20 kredytów AI, a użytkownicy mogą doładować go kwotą 25 USD, aby uzyskać 2500 kredytów.

Mona Weiss, reżyserka reklam, twierdzi, że ponowne tworzenie materiału filmowego w celu usunięcia napisów staje się znaczącym wydatkiem. „Jeśli stworzysz scenę z dialogami za pomocą Veo3, około 40% nagrania będzie zawierało bezsensowne napisy, przez co film będzie bezużyteczny” – mówi. „Stworzenie sceny, która się podoba, kosztuje dużo pieniędzy, ale ostatecznie okazuje się, że jest ona bezużyteczna”.

video AI anh 2

Trudno usunąć na Veo 3 bezsensowne napisy. Zdjęcie: Technology Review .

Kiedy Weiss zgłosiła problem do Google Labs za pośrednictwem Discorda, licząc na odzyskanie zmarnowanych kredytów, zespół wsparcia odesłał ją do oficjalnego działu wsparcia firmy. Zaoferowali zwrot opłaty za subskrypcję Veo 3, ale nie samych kredytów. Weiss odmówiła, ponieważ przyjęcie zwrotu oznaczałoby utratę dostępu do modelu.

Zespół pomocy technicznej Discord Google Labs poinformował, że napisy mogą zostać automatycznie aktywowane w przypadku wykrycia głosu i pracuje nad rozwiązaniem tego błędu.

Problem wynika z podejścia Google.

Powodem, dla którego Veo 3 automatycznie wstawia napisy, są dane, na których trenowano model.

Chociaż Google nie ujawniło szczegółów dotyczących kategorii danych użytych do trenowania swoich modeli, prawdopodobnie obejmują one filmy z platform takich jak YouTube i TikTok, z których wiele zawiera napisy. Według Shuo Niu, badacza platform udostępniania wideo i sztucznej inteligencji z Clark University (Massachusetts, USA), napisy te są osadzone bezpośrednio w klatkach wideo, co utrudnia ich usunięcie przed wykorzystaniem jako danych treningowych.

„Modele tekstu na wideo są trenowane przy użyciu uczenia przez wzmacnianie, aby tworzyć treści, które naśladują filmy stworzone przez ludzi. Jeśli te filmy mają napisy, model może się „nauczyć”, że dodanie napisów sprawia, że ​​produkt bardziej przypomina film stworzony przez ludzi” – wyjaśnił.

video AI anh 3

Na Veo 3 wpłynęły dane treningowe modelu pochodzące z filmów na YouTube i TikToku. Zdjęcie: Mashable .

Rzecznik Google powiedział: „Nieustannie udoskonalamy nasze możliwości tworzenia filmów, szczególnie pod względem tekstu, naturalnie brzmiącego głosu i idealnie zsynchronizowanego dźwięku. Zachęcamy użytkowników do ponownego wypróbowania polecenia, jeśli wyniki okażą się niespójne, i do przekazania nam opinii za pomocą funkcji „Lubię to” lub „Nie lubię tego”.

Co więcej, według Tuhina Chakrabarty'ego, badacza systemów AI na Uniwersytecie Stony Brook, powodem, dla którego ten model ignoruje komunikaty takie jak „Brak napisów”, jest to, że negatywne stwierdzenia (instruujące sztuczną inteligencję, aby czegoś nie robiła) są na ogół mniej skuteczne niż komunikaty twierdzące.

Aby całkowicie rozwiązać ten problem, Google będzie musiało przeanalizować każdą klatkę wszystkich filmów użytych do trenowania Veo 3, a następnie usunąć lub ponownie oznaczyć filmy napisami przed ponownym trenowaniem modelu. Zajmie to tygodnie, dodał Chakrabarty.

Katerina Cizek, autorka filmów dokumentalnych i dyrektor artystyczna w MIT Open Documentary Lab, uważa, że ​​problem ten pokazuje, że Google jest skłonne wypuszczać na rynek produkty, które nie są jeszcze w pełni ukończone.

„Google potrzebuje zwycięstwa” – stwierdził Cizek. „Muszą jako pierwsi wypuścić narzędzie, które będzie w stanie tworzyć dźwięk dopasowany do ruchu ust. A to jest ważniejsze niż rozwiązanie problemu z napisami”.

Źródło: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Komentarz (0)

Zostaw komentarz, aby podzielić się swoimi odczuciami!

W tej samej kategorii

Od tego samego autora

Dziedzictwo

Postać

Firmy

Sprawy bieżące

System polityczny

Lokalny

Produkt

Happy Vietnam
Szczęśliwa szkoła

Szczęśliwa szkoła

Starszy brat

Starszy brat

Młoda kobieta trzymająca wietnamską flagę stoi przed budynkiem Wietnamskiego Zgromadzenia Narodowego.

Młoda kobieta trzymająca wietnamską flagę stoi przed budynkiem Wietnamskiego Zgromadzenia Narodowego.