Vietnam.vn - Nền tảng quảng bá Việt Nam

Veo 3の大きな問題

この AI モデルは、リリースから 1 か月以上が経過した現在でも、意味不明な字幕を動画に自動的に挿入しており、これは Google が AI の能力を実証するために未完成の製品をリリースする意向を示している。

ZNewsZNews19/07/2025

Veo3は、Googleが5月末にリリースした最新のAIモデルで、コマンドに基づいて動画を生成できます。このモデルは、音声やセリフ付きの動画を作成できるという点でコンテンツ制作コミュニティの注目を集めています。これはGoogleの以前のモデルバージョンでは実現できなかった機能で、よりリアルな動画を制作できます。

多くのユーザーは、最大 8 秒の Veo 3 ビデオを使用して、コマーシャル、ASMR ビデオ、ファンタジー映画の予告編、ユーモラスなストリート インタビューなどを作成しています。

アカデミー賞ノミネート監督のダーレン・アロノフスキーは、このツールを用いて短編映画『Ancestra』を制作しました。記者会見で、Google DeepMindのCEOであるデミス・ハサビス氏は、Veo 3を映画における無声映画時代からの脱却に例えました。

Veo 3の「Persistent」字幕

しかし、多くのユーザーがこのツールが期待通りに動作しないことに気づいています。セリフ付きのクリップを作成する際、Veo 3は、コマンドで字幕を追加しないように明示的に指示されているにもかかわらず、意味のない乱雑な字幕を自動的に挿入してしまうことがよくあります。

これらの字幕を削除するのは簡単ではありません。ユーザーはクリップを作り直すか、「トークン」を消費してGoogleにさらにお金を払うか、外部ツールを使用して字幕を削除するか、動画をトリミングして字幕を削除するしかありません。

video AI anh 1

Veo 3はリアルな映像を映し出し、セリフも口の動きと合っているが、字幕は意味不明だ。写真: Lesswrong

Google LabsおよびGemini担当バイスプレジデントのジョシュ・ウッドワード氏は6月9日、Xフォーラムでスパム対策パッチを開発したと投稿した。しかし、1ヶ月以上経った今でも、ユーザーはGoogle LabsのDiscordチャンネルでこの問題を報告し続けており、大規模なAIモデルのバグ修正が容易ではないことが浮き彫りになっている。

Googleのこれまでの動画生成AIモデルと同様に、Veo 3は有料モデルで、月額249.99ドルから利用可能です。8秒間の動画を作成するには、ユーザーはFlow、Gemini、またはその他のプラットフォームに説明を入力します。Veo 3で作成された動画1本につき最低20 AIクレジットが必要で、 25ドルで2,500 AIクレジットまで追加できます。

コマーシャルディレクターのモナ・ワイス氏は、字幕を削除するために映像を作り直すのが大きな費用になりつつあると述べた。「Veo3でセリフのあるシーンを作成すると、出力の約40%に意味不明な字幕が付いてしまい、動画が使い物にならなくなってしまうんです」と彼女は言った。「気に入ったシーンを手に入れるために多額の費用をかけたのに、結局は使い物にならなくなってしまうんです。」

video AI anh 2

Veo 3では意味のない字幕を削除するのが難しい。写真: Technology Review

ワイス氏が無駄に消費したクレジットの返金を求めてDiscord経由でGoogle Labsに問題を報告したところ、サポートチームは彼女をGoogleの公式サポート部門に転送しました。サポート部門はVeo 3のサブスクリプション料金の返金を提案しましたが、クレジットの返金はしませんでした。ワイス氏は返金を受け入れるとモデルへのアクセスを失うことになるため、これを拒否しました。

Google Labs の Discord サポート チームによると、音声が検出されると字幕が自動的に有効になる可能性があり、修正に取り組んでいるとのことです。

Googleのアプローチの問題点

Veo 3 が字幕を自動的に挿入する理由は、モデルがトレーニングされるデータによるものです。

Googleはモデルのトレーニングに使用したデータカテゴリーの詳細を明らかにしていないが、クラーク大学(米国マサチューセッツ州)の動画共有プラットフォームとAIの研究者であるシュオ・ニウ氏によると、YouTubeやTikTokの動画が多く含まれていた可能性が高い。これらの動画の多くはフレームに直接字幕が埋め込まれているため、モデルのトレーニングデータとして使用する前に字幕を削除するのは困難だという。

「テキスト動画モデルは強化学習を使用してトレーニングされ、人間が作成した動画を模倣したコンテンツを生成します。そして、それらの動画に字幕がある場合、モデルは字幕を追加すると製品が人間が作成した動画に近づくことを『学習』できます」と彼は説明します。

video AI anh 3

Veo 3は、YouTubeやTikTok動画のモデルトレーニングデータの影響を受けています。写真: Mashable

Googleの広報担当者は、「私たちは動画作成機能、特にテキスト、自然な会話、そして完璧に同期された音声を継続的に改善しています」と述べています。「結果に一貫性がない場合は、コマンドを再試行し、その結果に「いいね!」または「嫌い!」と評価してフィードバックをお寄せください。

さらに、ストーニーブルック大学のAIシステムの研究者であるトゥヒン・チャクラバーティ氏によると、モデルが「字幕なし」などの指示を無視する理由は、否定的な発言(AIに何かをしないように求めるもの)は肯定的な指示よりも効果が低いことが多いためだという。

この問題を完全に解決するには、Google は Veo 3 のトレーニングに使用したすべてのビデオのすべてのフレームを調べ、キャプション付きのビデオを削除するかラベルを付け直してからモデルを再トレーニングする必要があり、それには数週間かかるだろうと Chakrabarty 氏は付け加えた。

MITオープンドキュメンタリーラボのドキュメンタリー映画制作者兼アートディレクターのカテリーナ・チゼック氏は、この問題はGoogleが未完成の製品をリリースする意思が依然としてあることを示していると述べている。

「Googleには勝利が必要だ」とチゼック氏は述べた。「唇の音を照合できるツールを最初にリリースする必要がある。そして、それは字幕の問題を解決することよりも重要だ」

出典: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


コメント (0)

No data
No data

遺産

人物

企業

No videos available

ニュース

政治体制

地方

商品