
Veo3は、5月下旬にリリースされたGoogleの最新AIモデルで、コマンドに基づいて動画を生成できます。このモデルは、音声やセリフ付きの動画を作成できるため、コンテンツ制作コミュニティの注目を集めています。これはGoogleの以前のモデルバージョンでは実現できなかった機能で、よりリアルな動画を作成できます。
多くのユーザーは、最大 8 秒の Veo 3 ビデオを使用して、コマーシャル、ASMR ビデオ、ファンタジー映画の予告編、ユーモラスなストリート インタビューなどを作成します。
アカデミー賞ノミネート監督のダーレン・アロノフスキーは、このツールを用いて短編映画『Ancestra』を制作しました。記者会見で、Google DeepMindのCEOであるデミス・ハサビスは、Veo 3を映画における無声映画時代からの脱却に例えました。
Veo 3の「Persistent」字幕
しかし、多くのユーザーがこのツールが期待通りに動作しないことに気づいています。セリフ付きのクリップを作成する際、Veo 3は、コマンドで明示的に字幕を追加しないように指定しているにもかかわらず、意味のない乱雑な字幕を自動的に挿入してしまうことがよくあります。
これらの字幕を削除するのは簡単ではありません。ユーザーはクリップを作り直すか、「トークン」を消費してGoogleの収益を増やすか、外部ツールを使って字幕を削除するか、動画をトリミングして字幕を削除するしかありません。
![]() |
Veo 3はリアルな映像を映し出し、セリフは口の動きと一致するが、字幕は意味不明だ。写真: Lesswrong |
Google LabsおよびGemini担当バイスプレジデントのジョシュ・ウッドワード氏は6月9日、Googleがスパム対策パッチを開発したとXに投稿した。しかし、1ヶ月以上経った今でも、ユーザーはGoogle LabsのDiscordチャンネルでこの問題を報告し続けており、大規模なAIモデルのバグ修正が容易ではないことが浮き彫りになっている。
Googleのこれまでの動画生成AIモデルと同様に、Veo 3は有料モデルで、月額249.99ドルから利用可能です。8秒の動画を作成するには、ユーザーはFlow、Gemini、またはその他のプラットフォームに説明を入力します。Veo 3で作成された動画1本につき最低20AIクレジットが必要で、 25ドルで2,500AIクレジットまで追加できます。
コマーシャルディレクターのモナ・ワイス氏は、字幕を削除するために映像を作り直すのがかなりの費用になりつつあると述べた。「Veo3でセリフのあるシーンを作成すると、出力の約40%に意味不明な字幕が付いてしまい、動画が使い物にならなくなってしまうんです」と彼女は言った。「気に入ったシーンを手に入れるのに、使い物にならなくなるなんて、大金を費やしているようなものです」
![]() |
Veo 3では意味不明な字幕を削除するのが難しい。写真: Technology Review 。 |
ワイス氏が無駄になったクレジットの返金を求めてDiscord経由でGoogle Labsに問題を報告したところ、サポートチームは彼女をGoogleの公式サポート部門に転送しました。サポート部門はVeo 3のサブスクリプション料金の返金を提案しましたが、クレジットの返金はしませんでした。ワイス氏は返金を受け入れるとモデルへのアクセスを失うことになるため、これを拒否しました。
Google Labs の Discord サポート チームは、音声が検出されると字幕が自動的に有効になる可能性があり、修正に取り組んでいると述べています。
Googleのアプローチの問題点
Veo 3 がキャプションを自動的に挿入する理由は、モデルがトレーニングされるデータによるものです。
グーグルはモデルのトレーニングに使用したデータのカテゴリーを明らかにしていないが、マサチューセッツ州クラーク大学の動画共有プラットフォームとAIの研究者であるシュオ・ニウ氏によると、YouTubeやTikTokの動画が含まれている可能性が高い。その多くは字幕がフレームに直接埋め込まれているため、トレーニングデータとして使用する前に字幕を削除するのは困難だという。
「テキスト動画モデルは強化学習を使用してトレーニングされ、人間が作成した動画を模倣したコンテンツを生成します。そして、それらの動画に字幕がある場合、モデルは字幕を追加すると製品が人間が作成した動画に近づくことを『学習』できます」と彼は説明します。
![]() |
Veo 3は、YouTubeやTikTok動画のモデルトレーニングデータの影響を受けています。写真: Mashable |
Googleの広報担当者は、「私たちは動画作成機能、特にテキスト、自然な会話、そして完璧に同期された音声を継続的に改善しています」と述べています。「結果に一貫性がない場合は、コマンドを再試行し、その結果に「いいね!」または「嫌い」を付けてフィードバックをお寄せください。」
さらに、ストーニーブルック大学のAIシステムの研究者であるトゥヒン・チャクラバーティ氏によると、モデルが「字幕なし」などの指示を無視する理由は、否定的な発言(AIに何かをしないように求めるもの)は肯定的な指示よりも効果が低いことが多いためだという。
この問題を完全に解決するには、Google は Veo 3 のトレーニングに使用したすべてのビデオのすべてのフレームを調べ、ビデオを削除するか字幕を付け直してからモデルを再トレーニングする必要があり、それには数週間かかるだろうと Chakrabarty 氏は付け加えた。
MITオープンドキュメンタリーラボのドキュメンタリー映画制作者兼アートディレクターのカテリーナ・チゼック氏は、この問題はGoogleが未完成の製品をリリースする意思が依然としてあることを示していると述べている。
「Googleには勝利が必要だ」とシゼック氏は述べた。「唇の音を再現できるツールを最初にリリースする必要がある。そして、それは字幕の問題を解決することよりも重要だ」
出典: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html
コメント (0)