
Veo3 ist Googles neuestes KI-Modell, das Ende Mai veröffentlicht wurde und es Nutzern ermöglicht, Videos per Sprachbefehl zu erstellen. Das Modell hat in der Content-Creator-Community große Aufmerksamkeit erregt, da es die Erstellung von Videos mit Ton und Dialogen ermöglicht – eine Funktion, die in früheren Versionen von Googles Modell nicht verfügbar war und die Videos dadurch realistischer wirken lässt.
Viele Nutzer verwenden Veo 3-Videoclips mit einer Länge von bis zu 8 Sekunden, um Werbespots, ASMR-Videos, Trailer für Fantasyfilme und humorvolle Straßeninterviews zu erstellen.
Der Oscar-nominierte Regisseur Darren Aronofsky nutzte das Tool, um einen Kurzfilm namens Ancestra zu erstellen. Auf der Pressekonferenz verglich Demis Hassabis, CEO von Google DeepMind, Veo 3 mit einem Schritt „aus der Stummfilmära“ des Kinos.
„Persistente“ Untertitel von Veo 3
Viele Nutzer haben jedoch festgestellt, dass dieses Tool nicht wie erwartet funktioniert. Beim Erstellen von Clips mit Dialogen fügt Veo 3 häufig automatisch sinnlose, durcheinandergewürfelte Untertitel ein, selbst wenn der Befehl eindeutig besagt, dass keine Untertitel hinzugefügt werden sollen.
Das Entfernen dieser Untertitel ist nicht einfach. Nutzer sind gezwungen, den Clip neu zu erstellen und dabei „Tokens“ auszugeben, was wiederum zusätzliche Kosten für Google bedeutet, oder externe Tools zum Entfernen der Untertitel zu verwenden oder das Video zu kürzen, um die Untertitel zu entfernen.
![]() |
Veo 3 erzeugt realistische Bilder und Dialoge, die den Lippenbewegungen entsprechen, aber die Untertitel sind sinnlos. Foto: Lesswrong . |
Josh Woodward, Vizepräsident von Google Labs und Gemini, postete am 9. Juni auf X, dass Google Patches entwickelt habe, um das Spam-Problem zu reduzieren. Doch mehr als einen Monat später melden Nutzer das Problem weiterhin im Discord-Kanal von Google Labs, was zeigt, dass die Behebung von Fehlern in großen KI-Modellen nicht einfach ist.
Wie Googles vorherige KI-Videoerstellungsmodelle ist auch Veo 3 kostenpflichtig und kostet ab 249,99 US-Dollar pro Monat. Um ein 8-sekündiges Video zu erstellen, geben Nutzer eine Beschreibung in Flow, Gemini oder einer anderen Plattform ein. Jeder Clip, der mit Veo 3 erstellt wird, kostet mindestens 20 KI-Credits. Nutzer können ihr Guthaben für 25 US-Dollar auf 2.500 Credits aufstocken.
Mona Weiss, eine Werbefilmregisseurin, erklärt, dass die Nachbearbeitung von Filmmaterial zur Entfernung von Untertiteln zunehmend kostspielig wird. „Wenn man mit Veo3 eine Szene mit Dialogen erstellt, enthalten etwa 40 % des Ergebnisses sinnlose Untertitel, wodurch das Video unbrauchbar wird“, sagt sie. „Es kostet viel Geld, eine Szene zu bekommen, die einem gefällt, die aber am Ende unbrauchbar ist.“
![]() |
Sinnlose Untertitel lassen sich auf dem Veo 3 nur schwer entfernen. Foto: Technology Review . |
Als Weiss das Problem über Discord an Google Labs meldete, um ihre verschwendeten Credits zurückzubekommen, verwies sie das Support-Team an die offizielle Supportabteilung des Unternehmens. Dort wurde ihr eine Rückerstattung für die Veo-3-Abonnementgebühr angeboten, nicht jedoch für die Credits. Weiss lehnte ab, da sie dadurch den Zugriff auf das Modell verlieren würde.
Das Google Labs Discord-Supportteam teilte mit, dass Untertitel möglicherweise automatisch aktiviert werden, wenn Sprache erkannt wird, und dass sie an der Behebung dieses Fehlers arbeiten.
Das Problem liegt in Googles Vorgehensweise.
Der Grund dafür, dass Veo 3 automatisch Untertitel einfügt, liegt in den Daten, mit denen das Modell trainiert wurde.
Obwohl Google keine Details zu den Datenkategorien veröffentlicht hat, die zum Trainieren seiner Modelle verwendet werden, gehören dazu wahrscheinlich Videos von Plattformen wie YouTube und TikTok, von denen viele Untertitel enthalten. Diese Untertitel sind direkt in die Videobilder eingebettet, was ihre Entfernung vor der Verwendung als Trainingsdaten erschwert, so Shuo Niu, Forscherin für Videoplattformen und KI an der Clark University (Massachusetts, USA).
„Text-zu-Video-Modelle werden mithilfe von Reinforcement Learning trainiert, um Inhalte zu erzeugen, die von Menschen erstellte Videos imitieren. Wenn diese Videos Untertitel haben, kann das Modell ‚lernen‘, dass das Hinzufügen von Untertiteln das Produkt einem von Menschen erstellten Video ähnlicher macht“, erklärte er.
![]() |
Veo 3 wurde durch Modelltrainingsdaten aus YouTube- und TikTok-Videos beeinflusst. Bild: Mashable . |
Ein Google-Sprecher erklärte: „Wir verbessern ständig unsere Videofunktionen, insbesondere im Hinblick auf Text, natürlich klingende Sprachausgabe und perfekt synchronisierten Ton. Wir bitten Nutzer, den Befehl erneut auszuführen, falls die Ergebnisse nicht zufriedenstellend sind, und uns über die „Gefällt mir“- oder „Gefällt mir nicht“-Funktion Feedback zu geben.“
Darüber hinaus ignoriert dieses Modell Eingabeaufforderungen wie „Keine Untertitel“, weil negative Aussagen (die die KI anweisen, etwas nicht zu tun) im Allgemeinen weniger effektiv sind als positive Eingabeaufforderungen, so Tuhin Chakrabarty, ein Forscher für KI-Systeme an der Stony Brook University.
Um das Problem vollständig zu beheben, muss Google jedes einzelne Bild aller Videos, die zum Trainieren von Veo 3 verwendet wurden, untersuchen und anschließend Videos mit Untertiteln entfernen oder neu kennzeichnen, bevor das Modell neu trainiert wird. Dies wird Wochen dauern, fügte Chakrabarty hinzu.
Katerina Cizek, Dokumentarfilmerin und Art Director am MIT Open Documentary Lab, argumentiert, dass dieses Problem Googles Bereitschaft zur Veröffentlichung von Produkten demonstriert, die noch nicht vollständig fertiggestellt sind.
„Google braucht einen Erfolg“, erklärte Cizek. „Sie müssen als Erste ein Tool auf den Markt bringen, das Audio erzeugen kann, das den Lippenbewegungen entspricht. Und das ist wichtiger als die Behebung des Untertitelproblems.“
Quelle: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Kommentar (0)