ソラ (OpenAI)
Sora は発表された中で最も新しい名前ですが、最も大きな騒ぎを巻き起こしています。その理由の一部は、ChatGPT の有名な開発元である OpenAI の製品であることです。しかし、主な理由は、このプログラムがテキスト コマンドだけで作成するビデオの品質です。
ChatGPTの成功により、同社のAIは言語を深く理解できるようになりました。Soraの能力を示す動画では、キャラクターがまるで人間の映画のようにリアルに動き、表現している様子が見られます。
ソラがテキストコマンドから作成した「シュールレアリスム」ビデオ
しかし、安全上の理由から、Soraはまだ一般公開されていません。OpenAIは、特に悪意のあるユーザー、なりすまし、または違法な目的でSoraを使用するAIユーザーの増加を踏まえ、一般公開前に慎重な対策を講じる予定です。
ルミエール(Google)
LumiereはGoogleの製品で、STUNet(Space-Time-U-Net)構造化拡散モデルに基づいて、テキスト入力から動画を生成することもできます。Lumiereは静止画をつなぎ合わせるのではなく、動画内のディテール(空間部分)を識別し、それらがどのように動き、同時に変化するか(時間部分)を追跡することで、スムーズな処理を支援します。
Soraと同様に、Lumiereはまだ一般公開されていません。同社は、Bardと同期したばかりの主要言語モデルGeminiのリリースに続き、2024年1月下旬にLumiereを発表しました。
ビデオポエット(Google)
この大規模言語モデル(LLM)は、2023年にGoogle検索によって開発された、動画、画像、音声、テキストの膨大なリポジトリからトレーニングされています。VideoPoetは、テキスト、画像、動画などの入力ソースからさまざまなタスクを実行し、動画を作成したり、コンテンツを強調表示したり、動画を音声に変換したり、静止画像をアニメーションに変換したりできます。
VideoPoetの元々のアイデアは、あらゆる自己回帰言語モデルを動画生成システムに変換する必要性から生まれました。現在の自己回帰言語モデルは人間と同じようにテキストやプログラミングコードを処理できますが、動画となると困難を極めています。VideoPoetは、トークン化を用いてあらゆる形式の入力を理解可能な言語に変換することで、この問題を解決します。
テキストから動画を作成するツールは、ほとんどが限界を試している
Emu ビデオ (メタ)
GoogleやOpenAIに加え、MetaもAI開発に積極的に取り組んでいる大手テック企業の一つです。Facebookを所有するMetaは、画像をテキストに変換し、それをデータとして動画作成に活用できるEmu Videoという動画作成AIも開発しました。
Emu Videoはベータテスターから好評を得ており、81%がImagen Video(Google)よりも好評価しています。90%以上がPYOCO(Nvidia)よりもMetaのモデルを選択し、MetaのMake-A-Video(96%が選択)よりも優れたパフォーマンスを発揮しました。
CogVideo(清華大学、中国)
上記のモデルはすべて世界をリードするテクノロジー企業の製品ですが、CogVideoは中国およびアジアを代表する名門大学である清華大学の研究チームによって開発されたAIです。このプログラムは、事前学習済みのテキスト画像変換モデルであるCogView2をベースにしています。
CogVideoをテストしたコンピュータアートの専門家、グレン・マーシャル氏は、「監督は職を失う可能性がある」と述べた。彼がCogVideoの助けを借りて制作した「The Crow 」というクリップは高い評価を受け、英国アカデミー賞(BAFTA)にノミネートされた。
[広告2]
ソースリンク
コメント (0)