
中国の大手テクノロジー企業テンセントは、たった一枚の入力画像から三次元空間での動きをシミュレートする動画を作成できる新しい人工知能モデルを発表した。

「HunyuanWorld-Voyager」と呼ばれるこのシステムは、奥行き情報を含む短いクリップを生成し、それを3Dドットマトリックスに再構築することができる。コンテンツ制作者に新たな可能性をもたらすが、3Dモデルとの完全なインタラクションには至っていない。

HunyuanWorld-Voyager は、49 フレーム (約 2 秒のビデオ) のシーケンスを生成するオープンウェイト モデルですが、ユーザーはクリップをリンクして、数分間の連続映像を作成することができます。

Ars Technicaは、視聴者が仮想カメラの視点を変えても、オブジェクトの相対的な位置関係が維持され、環境が完全に3次元であるかのように動作すると指摘しています。最終的な出力は依然として2次元動画ですが、Tencentによると、付随する深度データにより、従来のモデリング技術を必要とせずに3D再構成が可能になるとのこと。

Voyagerは、入力画像とユーザー定義のカメラパスを組み合わせることで動作します。ユーザーはパン、チルト、シーン内を移動するなどの動きを指定すると、システムはカラービデオと深度マップを同時に生成します。ビデオにオブジェクトが映し出されると、出力深度データにその位置までの相対距離が記録されます。

Tencent の技術論文ではワールドキャッシュと呼ばれている 2 番目のコンポーネントは、システムが新しいフレームを生成するときに 3D ポイント クラウドを保存します。

カメラが動くたびに、Voyagerはこれらの点を2次元に投影し直し、参照として使用します。このプロセスにより、後続のフレームが以前に生成されたコンテンツと一致するようになり、空間的な一貫性が維持されます。

このモデルは、フレームを3Dポイントに変換し、比較のためにシステムにフィードバックすることで、フレーム作成後の歪みを防ぎます。このフィードバックループにより、時間の経過とともに誤差が蓄積されても、幾何学的な安定性が確保されます。

この方法では、数分間は一貫したビデオを維持できますが、より長い、またはより複雑なカメラの動き、特に 360 度回転には対応できません。

テンセントは、実写映像やUnreal Engineで作成されたシーンを含む10万本以上のビデオクリップを用いてVoyagerを学習させました。この大規模なデータセットは、3次元環境におけるカメラの典型的な動きをシステムに学習させました。別の自動プロセスによってビデオクリップをスキャンし、各フレームの深度を計算することで学習入力が生成され、手動でデータにラベルを付ける必要がなくなりました。

このシステムには膨大な計算能力が必要です。540pの解像度でモデルを実行するには、少なくとも60GBのGPUメモリが必要で、最適な結果を得るには80GBが推奨されます。テンセントは「Hugging Face」のモデルの重みを発表しており、シングルGPUとマルチGPUの両方のセットアップをサポートしています。xDiTプラットフォームを使用することで、パフォーマンスは水平方向にスケーリングされ、8つのGPUを搭載したシステムは、シングルGPUで実行するよりも約6.7倍高速に映像を処理できるとテンセントは述べています。

ほとんどの生成動画モデルは、幾何学的整合性を適用せずに各フレームを生成します。例えば、OpenAIのSoraは3Dの整合性よりも視覚的なリアリズムを重視しています。Voyagerは異なるアプローチを採用し、完全な3D理解ではなく、フィードバックベースのパターンマッチングによってフレーム間でクリーンな幾何学的整合性を維持します。

スタンフォード大学の研究者が3Dワールド生成システムを評価する尺度であるWorldScoreにおいて、Voyagerは77.62点を獲得しました。テンセントのレポートによると、これは同等のモデルの中で最高点であり、WonderWorldの72.69点、CogVideoX-I2Vの62.15点を上回っています。Voyagerはスタイルの一貫性と主観的な品質においてWonderWorldを上回りましたが、カメラコントロールでは及ばない結果となりました。

有望なスコアにもかかわらず、このシステムには注目すべき注意点があります。それは、ライセンス制限です。テンセントのHunyuanスイートの他のモデルと同様に、テンセントはVoyagerを欧州連合、英国、韓国での使用を禁止しています。また、月間アクティブユーザー1億人を超える商用展開には、追加の契約が必要です。

出力品質は、AI生成環境にとって大きな前進です。しかしながら、高い計算コストと現状のシーンの一貫性における限界を考えると、Voyagerのようなシステムが完全にインタラクティブなリアルタイム体験をサポートできるようになるまでには、まだ時間がかかるかもしれません。現時点では、このシステムは動画制作や実験的な3D再構築ワークフローにおいて最も価値が高いと言えるでしょう。
出典: https://khoahocdoisong.vn/mo-hinh-ai-bien-mot-buc-anh-duy-nhat-thanh-the-gioi-3d-post2149050727.html
コメント (0)