Der „Albtraum“ aus Googles neuer KI-Videoerstellung.

Mit nur wenigen einfachen Befehlen kann Veo 3 – Googles neueste KI-Videosoftware – „Schrottvideos“ mit unglaublichem Realismus wiederherstellen.

ZNews•27/05/2025

Auf der Google I/O 2025-Veranstaltung schockte Google die Tech-Welt mit der Vorstellung seines KI- Videoproduktionsmodells Veo 3 und unternahm damit einen wichtigen Schritt für den Tech-Giganten in ein höchst umstrittenes Gebiet.

Laut Allison Johnson, Reporterin bei The Verge , ist der anspruchsvollste Aspekt von Veo 3 die Fähigkeit, für jedes Video einen eigenen Ton zu erstellen, von Soundeffekten und Hintergrundgeräuschen bis hin zu Dialogen der Figuren.

„Veo 3 hat mich als Maschine beeindruckt, die absolut minderwertige KI-Inhalte erzeugt“, kommentierte ein Reporter von The Verge .

Googles neuer KI-gestützter Videogenerator sorgt mit seinem hohen Realismusgrad für Furore. Laut Allison Johnson, Reporterin bei The Verge, ist die herausragendste Eigenschaft von Veo 3 die Fähigkeit, für jedes Video originellen Ton zu erzeugen – von Soundeffekten und Hintergrundgeräuschen bis hin zu Dialogen.

Neue Features und ein verblüffender Realismusgrad.

„Wir treten in eine neue Ära der Kreativität ein“, erklärte Josh Woodward, Vizepräsident von Googles Gemini, in seiner Veo 3-Einführungspräsentation und hob die Fähigkeit des Systems hervor, „extrem realistische“ Videos zu erstellen.

Johnson war anfangs skeptisch, doch nachdem sie das KI-Tool selbst getestet hatte, bestätigte sie, dass Woodward nicht übertrieben hatte. Veo 3 ist in der Lage, erschreckend realistische Produkte zu erstellen.

Konkret versuchte ein Reporter von The Verge , ein kurzes Video zu erstellen, in dem ein Nachrichtensprecher einen Brand meldet. Der Clip wirkte unglaublich überzeugend, mit Ton und Bild, die einer herkömmlichen Nachrichtensendung glichen.

Eine Szene aus einem Video von Veo 3. Foto: The Verge.

Kurz darauf erhielt der Beitrag, der eine Reihe von Videos mit KI-generierten Charakteren enthielt, die gegen die Befehle protestierten, mit denen die KI-gestützten Videos erstellt wurden, 50.000 Likes auf Reddit. Die Szenen zeigten eine Katastrophe, eine Frau, die mit einem Beatmungsschlauch im Krankenhausbett lag, und eine Person, die mit einer Waffe bedroht wurde – alles mit gesprochenen Dialogen und realistischen Hintergrundgeräuschen.

Im Vergleich zu anderen KI-gestützten Videobearbeitungstools hat Veo 3 die Bedienung deutlich vereinfacht. Man benötigt lediglich einen einfachen Befehl, ein paar Minuten Bearbeitungszeit durch die Plattform und ein Abonnement für Googles AI Ultra-Tarif ( 249,99 US-Dollar pro Monat).

Johnson fand es sogar einfacher, Videos mit weniger spezifischen Befehlen zu erstellen, und das beweist eines: Veo 3 ist hervorragend darin, YouTube-Inhalte zu erstellen, die für Kinder den kleinsten gemeinsamen Nenner haben.

Das Ende der „Stummfilmära“

Bislang konnte kein KI-Videomodell gleichzeitig synchronisierten Ton oder überhaupt irgendeine Art von Audio zur Videoausgabe bereitstellen. Veo 3 hingegen – mit seiner Fähigkeit zur synchronen Tonwiedergabe – will das „Stummfilmzeitalter“ beenden.

„Wir treten aus der stillen Ära der Videoproduktion hervor“, sagte Demis Hassabis, CEO von Google DeepMind, auf einer Pressekonferenz.

Die weite Verbreitung von Tools zur Erstellung von Videoproduktionsprofilen hat zu einer Explosion von Anbietern geführt, sodass dieser Markt mittlerweile gesättigt ist.

Von Startups wie Runway, Lightricks, Genmo, Pika, Higgsfield, Kling und Luma bis hin zu Tech-Giganten wie OpenAI und Alibaba werden Modelle in rasantem Tempo veröffentlicht. Oftmals unterscheiden sich diese Modelle kaum.

Es bleibt unklar, ob Veo 3 OpenAI Sora in puncto Videoqualität übertreffen kann. Allein die Möglichkeit, vollständig produzierte Videoclips mit Bild und Ton zu exportieren, könnte Veo 3 jedoch sofort zu einer attraktiveren Plattform machen.

Das herausragendste Merkmal des Veo 3 ist seine Fähigkeit, Audio und Video perfekt zu synchronisieren. Bild: Google.

„In der Film- und Fernsehbranche sind Hintergrundgeräusche und Soundeffekte üblicherweise das Werk von Künstlern. Stellen Sie sich nun vor, Sie müssten Veo lediglich den gewünschten Hintergrundsound beschreiben, der mit der Handlung verknüpft ist, und Veo würde alles ausgeben, inklusive Video und Dialog. Für diese Arbeit bräuchten Animatoren normalerweise Wochen oder Monate“, kommentierte Johnson.

Wenn Veo 3 tatsächlich Befehle befolgen und stundenlanges, konsistentes Video- und Audiomaterial ausgeben kann, wird es nicht mehr lange dauern, bis wir den ersten Animationsfilm haben, der vollständig mit KI erstellt wurde.

Unmittelbar nach der Veröffentlichung von Veo 3 begannen Kreative, Clips auf Plattformen wie X zu teilen, allen voran ein vollständig von KI erstelltes Stand-up-Comedy-Video. Die Zuschauer waren überrascht zu erfahren, dass die gesamte Szene, inklusive Voiceover, Video und sogar Publikumsgeräuschen, durch einen einzigen Textbefehl generiert wurde.

Dann ging ein weiterer Clip viral, der Pythagoras bei der Erklärung seines berühmten Satzes in einem antiken Setting und mit authentischen Dialogen zeigte. Es gab sogar ein Musikvideo, das komplett von Veo 3 produziert wurde und in dem Bild und Musik perfekt synchronisiert waren.

Die Economic Times kommentierte, dass diese Technologie als „eine neue Ära des Filmemachens“ bezeichnet werden könne, da sie es jedem – von einzelnen Kreativen bis hin zu großen Medienstudios – ermögliche, professionelle Inhalte kostengünstig und mit minimalem Ressourceneinsatz zu produzieren.

Quelle: https://znews.vn/ac-mong-tu-ai-tao-video-moi-cua-google-post1556018.html