AIに音を表現することを教える

喉頭の仕組みにヒントを得た新しい人工知能 (AI) モデルは、日常の音のシミュレーションを生成し、理解することができます。

この方法は、エンターテインメントおよび教育分野向けの新しいオーディオインターフェイスの開発をサポートできます。

声で音を真似ることは、見たものを伝えるために絵を描くようなものです。鉛筆でイメージを描くのではなく、発声で音を表現します。難しいように思えるかもしれませんが、誰もが自然にやっていることです。救急車のサイレン、カラスの鳴き声、ベルなどを真似して、この効果を体験してみましょう。

MITのコンピュータサイエンスおよび人工知能研究所（CSAIL）の研究者たちは、人間のコミュニケーション方法に関する認知科学にヒントを得て、訓練なしで、また人間がシミュレートした音を「聞いた」こともなく、人間のようなサウンドシミュレーションを生成できるAIシステムを開発した。

これを実現するために、研究チームは人間の発話を模倣した方法で音を生成・解釈するシステムを設計しました。まず、人間の声道モデルを構築し、喉頭からの振動が喉、舌、唇によってどのように形成されるかをシミュレートしました。次に、認知に着想を得たAIアルゴリズムを用いてこのモデルを操作し、それぞれの状況における音声コミュニケーションの具体的な方法を考慮しながら、音声シミュレーションを生成しました。

このモデルは、葉のざわめき、ヘビのシューという音、救急車のサイレンなど、様々な環境音を再現できます。さらに、一部のコンピュータービジョンシステムがスケッチから高品質な画像を再現するのと同様に、人間の音声シミュレーションから実際の音を予測する逆動作も可能です。例えば、このモデルは、人間が猫の鳴き声を真似した際に、猫の喉を鳴らす音と猫の喉を鳴らす音を正確に区別できます。

将来的には、このモデルは、サウンドデザイナー向けのより直感的な「シミュレーションベース」のインターフェース、仮想現実におけるより人間に近い AI キャラクター、さらには外国語を学ぶ学生を支援する方法につながる可能性があります。

本研究の筆頭著者である大学院生のカーティック・チャンドラ（MIT CSAIL）、カリマ・マ、研究生のマシュー・カレンは、コンピュータグラフィックスの研究者は、リアリズムが視覚表現の究極の目標ではないことを長年認識してきたと指摘する。例えば、抽象画や子供の落書きも、写真と同じくらい表現力豊かな表現力を持つ場合がある。

3段階の音模倣の芸術

研究チームは、人間の音のシミュレーションと比較するために、モデルの3つの段階的に洗練されたバージョンを開発しました。まず、実際の音に最も近いシミュレーションを生成することのみに焦点を当てた基本モデルを作成しましたが、このモデルは人間の行動とは一致しませんでした。

次に、チームは「コミュニケーション」モデルと呼ばれる2つ目のモデルを設計しました。カレン氏によると、このモデルは、聞き手にとっての音の特徴的な要素を考慮しています。例えば、船のエンジン音を模倣することで、船の音を模倣することができます。エンジン音は音の中で最も認識しやすい特徴ですが、最も重要な要素ではありません（例えば、波打ち際の音など）。このモデルは、最初のバージョンから大幅に改善されました。

最後に、研究チームはモデルに新たな推論レイヤーを追加しました。チャンドラ氏は、「シミュレートされた音は、どれだけの労力を費やしたかによって変化します。正確な音を作るには時間と労力が必要です」と説明しました。チームの完全なモデルは、速すぎる音、大きすぎる音、極端に高い音／低い音といった、通常のコミュニケーションではあまり見られない要素を回避することで、この点を考慮しています。その結果、人間が似たような音を真似る際に行う多くの判断を反映した、より人間らしい音のシミュレーションが実現しました。

より表現力豊かなオーディオテクノロジーを目指して。

このモデルは、アーティストがコンピューターシステムと音をより効果的にコミュニケーションするのに役立つ可能性があり、映画制作者やコンテンツ制作者が特定の状況により関連性の高いAIサウンドを制作するのを支援するでしょう。また、ミュージシャンが文章で表現するのが難しい音をシミュレートすることで、サウンドデータベースを迅速に検索することも可能になります。

一方、研究チームは、言語の発達、乳児が話し方を学ぶ過程、オウムや鳴鳥などの鳥の擬態行動など、他の分野へのこのモデルの応用を研究している。

しかし、現在のモデルにはまだいくつかの限界があります。「z」のような子音の再現が難しく、ブザー音などの音のシミュレーションが不正確になります。さらに、人間の話し声や音楽の真似、あるいは心臓の鼓動など、様々な言語で真似される様々な音を再現することもまだできません。

スタンフォード大学の言語学教授、ロバート・ホーキンス氏は次のようにコメントしています。「実際の猫の鳴き声から『ニャー』という言葉への移行は、言語の進化における生理機能、社会的推論、そしてコミュニケーションの複雑な相互作用を示しています。このモデルは、これらのプロセスに関する理論を定式化し、検証する上で、非常に画期的な前進です。」

（出典：MITニュース）

[広告2]
出典: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html