Vietnam.vn - Nền tảng quảng bá Việt Nam

Veo 3の大きな問題点

このAIモデルは、リリースから1か月以上経った今でも、動画に意味不明で支離滅裂な字幕を自動的に挿入している。この状況は、GoogleがAIの能力を示すために、未完成の製品をリリースすることも厭わないことを示している。

ZNewsZNews19/07/2025

Veo3は、Googleが5月下旬に発表した最新のAIモデルで、音声コマンドに基づいて動画を作成できる。このモデルは、音声やセリフを含む動画を作成できるため、コンテンツ制作コミュニティから注目を集めている。これは、Googleの以前のモデルにはなかった機能であり、よりリアルな動画制作を可能にする。

多くのユーザーが、最大8秒の長さのVeo 3ビデオクリップを利用して、コマーシャル、ASMRビデオ、ファンタジー映画の予告編、ユーモラスな街頭インタビューなどを作成しています。

アカデミー賞ノミネート監督のダレン・アロノフスキーは、このツールを使って「アンセストラ」という短編映画を制作した。記者会見で、Google DeepMindのCEOであるデミス・ハサビスは、Veo 3を映画における「サイレント映画時代からの脱却」に例えた。

Veo 3の「Persistent」字幕

しかし、多くのユーザーはこのツールが期待通りに動作しないことを発見しています。Veo 3では、セリフを含むクリップを作成する際に、字幕を追加しないように明確に指示しているにもかかわらず、意味不明で支離滅裂な字幕が自動的に挿入されることがよくあります。

これらの字幕を削除するのは簡単ではありません。ユーザーは動画を再作成するか、Googleで「トークン」を消費して(つまり、Googleにさらにお金を費やす)、字幕を削除するために外部ツールを使用するか、字幕を削除するために動画をトリミングする必要があります。

video AI anh 1

Veo 3はリアルな映像と口の動きに合わせたセリフを生成するが、字幕は意味不明である。写真: Lesswrong

Google LabsおよびGeminiの副社長であるジョシュ・ウッドワード氏は、6月9日にX上で、Googleがスパム問題を軽減するためのパッチを開発したと投稿した。しかし、1か月以上経った今でも、ユーザーはGoogle LabsのDiscordチャンネルでこの問題を報告し続けており、大規模なAIモデルのバグ修正が容易ではないことを示している。

GoogleのこれまでのAI動画作成モデルと同様に、Veo 3は有料モデルで、月額249.99ドルからとなっています。8秒の動画を作成するには、ユーザーはFlow、Gemini、またはその他のプラットフォームに説明文を入力します。Veo 3を使った動画作成には最低20 AIクレジットが必要で、 25ドルで2,500クレジットを追加購入できます。

コマーシャルディレクターのモナ・ワイス氏は、字幕を削除するために映像を作り直すことが大きな費用負担になりつつあると述べている。「Veo3を使って会話シーンを作成すると、出力の約40%に意味不明な字幕が付いてしまい、ビデオが使い物にならなくなってしまうのです」と彼女は言う。「気に入ったシーンを作るのに多額の費用がかかるのに、結局は使えなくなってしまうのです。」

video AI anh 2

Veo 3では、意味のない字幕を削除するのが難しい。写真:テクノロジーレビュー

ワイスが無駄になったクレジットを取り戻そうと、Discord経由でGoogle Labsに問題を報告したところ、サポートチームは彼女を同社の公式サポート部門に紹介した。彼らはVeo 3の購読料の返金は申し出たが、クレジットの返金は申し出なかった。ワイスは返金を受け入れるとモデルへのアクセス権を失うことになるため、これを拒否した。

Google LabsのDiscordサポートチームは、音声が検出された場合、字幕が自動的に有効になる可能性があると述べ、このバグの修正に取り組んでいると付け加えた。

問題の根源は、Googleのアプローチにある。

Veo 3が字幕を自動的に挿入する理由は、モデルの学習に使用されたデータに由来する。

Googleはモデルの学習に使用したデータカテゴリの詳細を公表していないが、YouTubeやTikTokなどのプラットフォームの動画が含まれている可能性が高く、それらの動画の多くには字幕が付いている。クラーク大学(米国マサチューセッツ州)で動画共有プラットフォームとAIを研究するShuo Niu氏によると、これらの字幕は動画フレームに直接埋め込まれているため、学習データとして使用する前に削除するのは難しいという。

「テキストから動画への変換モデルは、強化学習を用いて人間が作成した動画を模倣したコンテンツを作成するように訓練されます。そして、それらの動画に字幕が付いている場合、モデルは字幕を追加することで、より人間が作成した動画に似たものになることを『学習』することができます」と彼は説明した。

video AI anh 3

Veo 3は、YouTubeやTikTokの動画からのモデル学習データの影響を受けた。画像: Mashable

Googleの広報担当者は、「当社は、特にテキスト、自然な音声、そして完璧に同期された音声といった点において、動画作成機能を常に改善しています。結果に一貫性がない場合は、コマンドを再度実行していただき、いいね/よくないね機能を通じてフィードバックをお寄せください」と述べています。

さらに、ストーニーブルック大学のAIシステム研究者であるトゥヒン・チャクラバルティ氏によると、このモデルが「字幕なし」のような指示を無視する理由は、否定的な指示(AIに何かをしないように指示する指示)は一般的に肯定的な指示よりも効果が低いからだという。

この問題を完全に解決するには、GoogleはVeo 3の学習に使用されたすべての動画のすべてのフレームを検証し、字幕付きの動画を削除または再ラベル付けしてから、モデルを再学習させる必要がある。これには数週間かかるだろうとチャクラバルティ氏は付け加えた。

MITオープン・ドキュメンタリー・ラボのドキュメンタリー映画監督兼アートディレクターであるカテリーナ・チゼク氏は、この問題は、グーグルがまだ完全に完成していない製品をリリースする意思があることを示していると主張している。

「Googleは勝利を必要としている」とシゼック氏は述べた。「口の動きに合わせた音声を作成できるツールを最初にリリースする必要がある。そしてそれは字幕の問題を解決することよりも重要だ。」

出典:https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


コメント (0)

ぜひコメントして、あなたの気持ちをシェアしてください!

同じカテゴリー

同じ著者

遺産

人物

ビジネス

時事問題

政治システム

地方

商品

Happy Vietnam
巡礼

巡礼

ハッピースクール

ハッピースクール

全国博覧会

全国博覧会