このアプローチは、エンターテインメントおよび教育分野向けの新しいオーディオ インターフェイスの開発に役立つ可能性があります。

画像001.png
写真: MIT CSAIL

声で音を真似ることは、見たものを伝えるために絵を描くようなものです。鉛筆でイメージを描くのではなく、声道を使って音を表現します。難しいように思えるかもしれませんが、人は自然にこれを実践しています。救急車のサイレン、カラスの鳴き声、ベルなどを真似て、この感覚を体験してみてください。

MITのコンピュータサイエンスおよび人工知能研究所(CSAIL)の研究者たちは、私たちのコミュニケーション方法に関する認知科学にヒントを得て、トレーニングを必要とせず、人間がシミュレートした音を「聞いたこと」がなくても、人間のような音のシミュレーションを生成できるAIシステムを開発した。

これを実現するために、研究チームは人間と同じように音を生成・解釈するシステムを設計しました。まず、人間の声道モデルを構築し、喉頭からの振動が喉、舌、唇によってどのように形作られるかをシミュレートしました。次に、認知に着想を得たAIアルゴリズムを用いてモデルを駆動し、それぞれの状況における音の伝達方法を考慮しながら、音のシミュレーションを生成しました。

このモデルは、葉のざわめき、ヘビのシューという音、救急車のサイレンなど、幅広い環境音を再現できます。さらに、このモデルは逆方向にも動作し、人間の発話のシミュレーションから実際の音を予測することも可能です。これは、一部のコンピュータービジョンシステムがスケッチから高品質な画像を再現するのと似ています。例えば、人間が猫の「ニャー」と「ゴロゴロ」を真似した際に、このモデルは正確に区別することができます。

将来的には、このモデルは、サウンドデザイナー向けのより直感的な「シミュレーションベース」のインターフェース、仮想現実におけるより人間に近い AI キャラクター、さらには学生が外国語を学ぶのを支援する方法につながる可能性があります。

本研究の筆頭著者であるMIT CSAIL大学院生のカーティック・チャンドラ氏とカリマ・マ氏、そして大学院生のマシュー・カレン氏は、コンピュータグラフィックスの研究者は、リアリズムが視覚表現の究極の目標ではないことを長年認識してきたと指摘する。例えば、抽象画や子供の落書きも、写真と同じくらい表現力豊かな表現力を持つ場合がある。

3段階のサウンドシミュレーションの芸術

研究チームは、人間の音のシミュレーションと比較するために、モデルの3つのバージョンを開発しました。まず、実際の音に可能な限り近いシミュレーションを生成することのみに焦点を当てた基本モデルを作成しましたが、このモデルは人間の行動とは一致しませんでした。

その後、チームは「コミュニケーション」モデルと呼ばれる2つ目のモデルを設計しました。カレン氏によると、このモデルは、聞き手にとって特徴的な音の要素を考慮に入れています。例えば、船の音を模倣する場合、エンジンの轟音を模倣するかもしれません。エンジンの轟音は、波打ち際の音のように最も大きな要素ではないにもかかわらず、音の中で最も認識しやすい特徴だからです。このモデルは最初のバージョンから大幅に改善されました。

最後に、チームはモデルに推論レイヤーを追加しました。「シミュレートされた音は、どれだけ努力を注ぎ込むかによって変化します」とチャンドラは説明します。「正確な音を出すには時間と労力がかかります。」チームの最終モデルはこの点を考慮し、速すぎる音、大きすぎる音、高すぎる音/低すぎる音といった、通常の会話ではあまり発生しない要素を回避しています。その結果、人間が似たような音を真似る際に行う多くの判断を反映した、より人間らしいシミュレーションが実現しました。

より表現力豊かなサウンドテクノロジーへ

このモデルは、アーティストが計算システムと音をより効果的にコミュニケーションさせるのに役立ち、映画制作者やコンテンツ制作者がより文脈に即したAIサウンドを作成するのに役立ちます。また、ミュージシャンがテキストで表現するのが難しいノイズをシミュレートすることで、サウンドデータベースを迅速に検索することも可能になります。

一方、研究チームは、言語の発達、赤ちゃんが話し方を学ぶ過程、オウムや鳴鳥などの鳥の擬態行動など、他の分野へのモデルの応用を検討している。

しかし、現在のモデルにはまだいくつかの限界があります。「z」のような子音の再現が難しく、蜂の羽音のような音を正確に再現できません。さらに、人間が話し言葉や音楽を真似る様子や、心臓の鼓動のように言語によって真似の仕方が異なる音を真似る様子を、まだ再現できていません。

「実際の猫の鳴き声から『ニャー』という言葉への移行は、言語の進化における生理機能、社会的推論、そしてコミュニケーションの複雑な相互作用を示しています」と、スタンフォード大学の言語学教授、ロバート・ホーキンス氏は述べています。「このモデルは、これらのプロセスに関する理論を定式化し、検証する上で、非常に刺激的な前進です。」

(出典:MITニュース)