宇宙飛行士が馬に乗っている画像は、2種類のAI生成モデルを組み合わせることで作成された。写真:MITニュース
スピードと品質がもはやトレードオフの関係ではなくなったとき。
AIを活用した画像生成の分野には、現在主に2つの方法があります。
拡散モデルを用いることで、詳細で鮮明な画像を作成できます。しかし、各ピクセルからノイズを除去するために数十もの処理ステップが必要となるため、処理速度が非常に遅く、多くの計算リソースを消費します。
宇宙飛行士が馬に乗っている画像は、2種類のAI生成モデルを組み合わせることで作成された。写真:MITニュース
スピードと品質がもはやトレードオフの関係ではなくなったとき。
AIを活用した画像生成の分野には、現在主に2つの方法があります。
拡散モデルを用いることで、詳細で鮮明な画像を作成できます。しかし、各ピクセルからノイズを除去するために数十もの処理ステップが必要となるため、処理速度が非常に遅く、多くの計算リソースを消費します。
一方、自己回帰モデルは、画像の小さな部分を順次予測できるため、はるかに高速です。しかし、生成される画像の詳細度が低く、エラーが発生しやすいという欠点があります。
HART(ハイブリッド自己回帰トランスフォーマー)は、両方の手法を組み合わせ、「両方の長所を兼ね備えた」手法です。まず、自己回帰モデルを用いて、画像を離散的なトークンにエンコードすることで全体像を構築します。次に、やや拡散的なモデルを用いて、エンコード処理中に失われた詳細情報である残差トークンを追加処理します。
その結果、最先端の拡散モデルと同等(あるいはそれ以上)の品質の画像が得られるだけでなく、処理速度は9倍速く、使用する計算リソースは31%削減される。
この新しい手法は、高品質な画像を高速で生成するのに役立ちます。
HARTの注目すべき革新の一つは、自己回帰モデルを使用する際に発生する情報損失の問題への対処方法である。画像を離散的なトークンに変換することで処理速度は向上するが、同時に物体の輪郭、顔の特徴、髪、目、口といった重要な詳細情報が失われてしまう。
HARTの解決策は、拡散モデルが残差トークンを用いてこれらの詳細を「補修」することだけに焦点を当てるようにすることです。また、モデルは自己回帰によって既にほとんどの処理を終えているため、拡散モデルに必要な処理ステップは以前の30以上ではなく、わずか8ステップで済みます。
「拡散モデルは実装が容易なため、より効果的です」と、共著者の唐浩天氏は説明した。
具体的には、7億個のパラメータを持つ自己回帰トランスフォーマーモデルと3700万個のパラメータを持つマイルド拡散モデルを組み合わせることで、HARTは最大20億個のパラメータを持つ拡散モデルに匹敵する性能を、9倍高速に実現できる。
当初、研究チームは拡散モデルを画像生成プロセスの初期段階に組み込むことを試みましたが、これはエラーの蓄積につながりました。最も効果的なアプローチは、拡散モデルに最終段階の処理を任せ、画像の「欠落」部分のみに焦点を当てることです。
マルチメディアAIの未来を切り拓く。
研究チームの次のステップは、HARTアーキテクチャに基づいた次世代言語であるAIビジョンモデルを構築することです。HARTは拡張性と適応性に優れ、多様なデータタイプ(マルチモーダル)に対応できるため、 ビデオ制作、音声予測、その他多くの分野への応用が期待されています。
この研究は、MIT-IBMワトソンAIラボ、MIT-アマゾンサイエンスセンター、MIT AIハードウェアプログラム、米国国立科学財団など、複数の組織から資金提供を受けました。NVIDIAは、モデルのトレーニング用にGPUインフラストラクチャも提供しました。
(MITニュースによると)
出典: https ://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
コメント (0)