
Veo3 ist Googles neuestes KI-Modell, das Ende Mai auf den Markt kam und Videos auf Befehlsbasis generieren kann. Dieses Modell erregte die Aufmerksamkeit der Content-Erstellungs-Community, da es Videos mit Ton und Dialogen erstellen kann – eine Funktion, die in Googles vorheriger Modellversion nicht verfügbar war und die Videos dadurch realistischer macht.
Viele Benutzer verwenden bis zu 8 Sekunden lange Veo 3-Videos, um Werbespots, ASMR-Videos, Fantasy-Filmtrailer und humorvolle Straßeninterviews zu erstellen.
Der Oscar-nominierte Regisseur Darren Aronofsky nutzte das Tool, um einen Kurzfilm namens Ancestra zu drehen. Während einer Pressekonferenz verglich Google DeepMind-CEO Demis Hassabis Veo 3 mit einer Abkehr vom Stummfilmzeitalter.
"Persistente" Untertitel von Veo 3
Viele Benutzer haben jedoch festgestellt, dass das Tool nicht wie erwartet funktioniert. Beim Erstellen von Clips mit Dialogen fügt Veo 3 oft automatisch bedeutungslose, unordentliche Untertitel ein, selbst wenn im Befehl ausdrücklich darauf hingewiesen wird, keine Untertitel hinzuzufügen.
Das Entfernen dieser Untertitel ist nicht einfach. Nutzer müssen den Clip neu erstellen, „Token“ ausgeben, was mehr Geld für Google bedeutet, oder ein externes Tool zum Entfernen der Untertitel verwenden oder das Video zuschneiden, um die Untertitel zu entfernen.
![]() |
Veo 3 erzeugt lebensechte Bilder, Dialoge entsprechen den Mundbewegungen, Untertitel sind jedoch bedeutungslos. Foto: Lesswrong . |
Josh Woodward, Vizepräsident von Google Labs und Gemini, postete am 9. Juni auf X, dass Google Patches zur Spam-Reduzierung entwickelt habe. Doch mehr als einen Monat später melden Nutzer das Problem weiterhin im Discord-Kanal von Google Labs. Das zeigt, dass die Behebung von Fehlern in großen KI-Modellen nicht einfach ist.
Wie Googles vorherige KI-Modelle zur Videogenerierung ist Veo 3 ein kostenpflichtiges Modell ab 249,99 US-Dollar pro Monat. Um ein 8-Sekunden-Video zu erstellen, geben Nutzer eine Beschreibung in Flow, Gemini oder einer anderen Plattform ein. Jeder mit Veo 3 erstellte Clip kostet mindestens 20 KI-Credits. Nutzer können das Guthaben für 25 US-Dollar auf 2.500 Credits aufstocken.
Mona Weiss, eine Werberegisseurin, sagte, die Neuproduktion von Filmmaterial zum Entfernen von Untertiteln werde zu einem erheblichen Kostenfaktor. „Wenn man mit Veo3 eine gesprochene Szene erstellt, enthalten etwa 40 % der Ausgabe unsinnige Untertitel, die das Video unbrauchbar machen“, sagte sie. „Es kostet viel Geld, eine Szene zu bekommen, die einem gefällt, aber unbrauchbar ist.“
![]() |
Unsinnige Untertitel lassen sich auf Veo 3 nur schwer entfernen. Foto: Technology Review . |
Als Weiss das Problem über Discord an Google Labs meldete, in der Hoffnung auf eine Rückerstattung der verschwendeten Credits, wurde sie vom Support-Team an die offizielle Supportabteilung des Unternehmens weitergeleitet. Dort wurde angeboten, die Kosten für das Veo-3-Abonnement zu erstatten, nicht jedoch die Credits. Weiss lehnte ab, da eine Rückerstattung den Verlust des Zugriffs auf das Modell bedeuten würde.
Das Discord-Supportteam von Google Labs teilte mit, dass Untertitel automatisch aktiviert werden können, wenn Sprache erkannt wird, und dass an einer Lösung gearbeitet wird.
Das Problem mit Googles Ansatz
Der Grund, warum Veo 3 automatisch Untertitel einfügt, liegt in den Daten, mit denen das Modell trainiert wird.
Obwohl Google die zum Trainieren des Modells verwendeten Datenkategorien nicht offenlegte, handelte es sich wahrscheinlich um Videos von YouTube und TikTok. Bei vielen dieser Videos sind die Untertitel direkt in den Rahmen eingebettet, sodass sie vor der Verwendung als Trainingsdaten nur schwer entfernt werden können, so Shuo Niu, ein Forscher für Video-Sharing-Plattformen und KI an der Clark University in Massachusetts.
„Text-zu-Video-Modelle werden mithilfe von bestärkendem Lernen trainiert, um Inhalte zu generieren, die von Menschen erstellte Videos nachahmen. Wenn diese Videos Untertitel haben, kann das Modell ‚lernen‘, dass das Hinzufügen von Untertiteln das Produkt mehr wie von Menschen erstellte Videos macht“, erklärt er.
![]() |
Veo 3 wird durch Modelltrainingsdaten aus YouTube- und TikTok-Videos beeinflusst. Foto: Mashable . |
„Wir verbessern ständig unsere Möglichkeiten zur Videoerstellung, insbesondere im Bereich Text, natürliche Sprache und perfekt synchronisiertes Audio“, sagte ein Google-Sprecher. „Wir empfehlen Nutzern, ihre Befehle zu wiederholen, wenn sie inkonsistente Ergebnisse sehen, und uns Feedback zu geben, indem sie die Ergebnisse bewerten.“
Der Grund, warum das Modell Anweisungen wie „Keine Untertitel“ ignoriert, liegt darin, dass negative Aussagen (die KI bitten, etwas nicht zu tun) oft weniger effektiv sind als positive Aufforderungen, so Tuhin Chakrabarty, ein Forscher für KI-Systeme an der Stony Brook University.
Um das Problem vollständig zu beheben, müsste Google jedes einzelne Bild aller Videos untersuchen, die zum Trainieren von Veo 3 verwendet wurden, und dann die Videos entfernen oder mit Untertiteln neu beschriften, bevor das Modell neu trainiert werden kann. Dies würde Wochen dauern, fügte Chakrabarty hinzu.
Laut Katerina Cizek, Dokumentarfilmerin und Art Director am MIT Open Documentary Lab, zeige das Problem, dass Google immer noch bereit sei, Produkte zu veröffentlichen, die noch nicht ganz fertig seien.
„Google braucht einen Sieg“, sagte Cizek. „Sie müssen als erste ein Tool veröffentlichen, das den Lippenklang nachahmt. Und das ist wichtiger, als das Untertitelproblem zu lösen.“
Quelle: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html
Kommentar (0)