Veo 3の大きな問題

Veo3は、5月下旬にリリースされたGoogleの最新AIモデルで、音声コマンドに基づいた動画作成を可能にします。このモデルは、音声とセリフ付きの動画作成を可能にするため、コンテンツ制作コミュニティから注目を集めています。これは、Googleの以前のモデルでは実現できなかった機能で、よりリアルな動画を作成できます。

多くのユーザーは、最大 8 秒の Veo 3 ビデオクリップを利用して、コマーシャル、ASMR ビデオ、ファンタジー映画の予告編、ユーモラスなストリートインタビューなどを作成しています。

アカデミー賞ノミネート監督のダーレン・アロノフスキーは、このツールを用いて短編映画『Ancestra』を制作しました。記者会見で、Google DeepMindのCEOであるデミス・ハサビス氏は、Veo 3を映画界における「無声映画時代からの脱却」に例えました。

Veo 3の「Persistent」字幕

しかし、多くのユーザーがこのツールが期待通りに動作しないことに気づいています。セリフ付きのクリップを作成する際、Veo 3は、コマンドで字幕を追加しないように明確に指示されているにもかかわらず、意味のない支離滅裂な字幕を自動的に挿入してしまうことがよくあります。

これらの字幕を削除するのは簡単ではありません。ユーザーはクリップを作り直し、「トークン」を消費してGoogleでさらに料金を支払うか、外部ツールを使って字幕を削除するか、動画をトリミングして字幕を削除するしかありません。

Veo 3はリアルな映像と唇の動きに合わせたセリフを生成しますが、字幕は意味不明です。写真： Lesswrong

Google LabsおよびGemini担当バイスプレジデントのジョシュ・ウッドワード氏は6月9日、Googleがスパム問題を軽減するためのパッチを開発したとXに投稿しました。しかし、1ヶ月以上経った今でも、ユーザーからの報告はGoogle LabsのDiscordチャンネルで続いており、大規模なAIモデルのバグ修正が容易ではないことを示しています。

GoogleのこれまでのAI動画作成モデルと同様に、Veo 3は有料モデルで、月額249.99ドルからご利用いただけます。8秒の動画を作成するには、ユーザーはFlow、Gemini、またはその他のプラットフォームに説明を入力します。Veo 3を使用した動画作成には、少なくとも20 AIクレジットが必要です。さらに、 25ドルを追加することで2,500 AIクレジットにアップグレードできます。

コマーシャルディレクターのモナ・ワイス氏は、字幕を削除するために映像を作り直すのが大きなコストになりつつあると指摘する。「Veo3を使ってセリフのあるシーンを作成すると、出力の約40%に意味のない字幕が付いてしまい、動画が使い物にならなくなってしまうんです」と彼女は言う。「気に入ったシーンを作るのに多額の費用がかかるのに、結局は使い物にならなくなってしまうんです。」

Veo 3では意味のない字幕を削除するのは困難です。写真: Technology Review 。

ワイス氏が無駄にしたクレジットを取り戻そうと、Discord経由でGoogle Labsに問題を報告したところ、サポートチームは彼女をGoogleの公式サポート部門に紹介しました。サポート部門はVeo 3のサブスクリプション料金の返金を提案しましたが、クレジットの返金は提案しませんでした。ワイス氏は返金を受け入れるとモデルへのアクセスを失うことになるため、これを拒否しました。

Google Labs Discord サポートチームは、音声が検出されると字幕が自動的に有効になる可能性があり、このバグの修正に取り組んでいると述べています。

この問題は Google のアプローチに起因しています。

Veo 3 が字幕を自動的に挿入する理由は、モデルがトレーニングされたデータに由来します。

Googleはモデルの学習に使用したデータカテゴリーの詳細を明らかにしていないが、YouTubeやTikTokなどのプラットフォームの動画が含まれている可能性が高い。これらの動画の多くは字幕付きである。クラーク大学（米国マサチューセッツ州）で動画共有プラットフォームとAIを研究するシュオ・ニウ氏によると、これらの字幕は動画フレームに直接埋め込まれているため、学習データとして使用する前に削除することが困難だという。

「テキスト動画モデルは強化学習を使用してトレーニングされ、人間が作成した動画を模倣したコンテンツを作成します。また、それらの動画に字幕が付いている場合、モデルは字幕を追加すると製品が人間が作成した動画に近づくことを『学習』できます」と、同氏は説明した。

Veo 3は、YouTubeやTikTok動画のモデルトレーニングデータの影響を受けました。画像： Mashable

Googleの広報担当者は次のように述べています。「私たちは動画作成機能、特にテキスト、自然な音声、そして完璧に同期されたオーディオの面で、常に改善に取り組んでいます。結果に一貫性がないと感じた場合は、コマンドを再試行し、高評価・低評価機能を通じてフィードバックをお寄せいただくようお願いいたします。」

さらに、このモデルが「字幕なし」などのプロンプトを無視する理由は、否定的な発言（AIに何かをしないように指示するもの）は一般的に肯定的なプロンプトよりも効果が低いためだと、ストーニーブルック大学のAIシステムの研究者であるトゥヒン・チャクラバーティ氏は述べている。

この問題を完全に解決するには、GoogleはVeo 3のトレーニングに使用したすべての動画のすべてのフレームを検査し、字幕付きの動画を削除または再ラベル付けした上で、モデルを再トレーニングする必要があります。チャクラバーティ氏は、これには数週間かかると付け加えました。

MITオープンドキュメンタリーラボのドキュメンタリー映画制作者兼アートディレクターのカテリーナ・チゼック氏は、この問題はGoogleがまだ完全には完成していない製品をリリースする意向を示していると主張している。

「Googleは勝利を必要としている」とシゼック氏は述べた。「唇の動きに合わせた音声を作成できるツールを最初にリリースする必要がある。そして、それは字幕の問題を解決することよりも重要だ」

出典: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html