Cette approche pourrait contribuer au développement de nouvelles interfaces audio pour les secteurs du divertissement et de l’éducation .

image001.png
Photo : MIT CSAIL

Imiter des sons avec sa voix, c'est comme faire un dessin rapide pour exprimer ce que l'on voit. Au lieu d'utiliser un crayon pour illustrer l'image, on utilise son conduit vocal pour représenter le son. Bien que cela puisse paraître difficile, c'est un geste naturel. Essayez d'imiter une sirène d'ambulance, le cri d'un corbeau ou une cloche pour en faire l'expérience.

Inspirés par les sciences cognitives sur la façon dont nous communiquons, les chercheurs du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) ont développé un système d'IA capable de générer des simulations de sons de type humain sans aucune formation et sans jamais avoir « entendu » de sons simulés par l'homme auparavant.

Pour y parvenir, l'équipe a conçu son système pour produire et interpréter les sons à la manière des humains. Ils ont commencé par construire un modèle du conduit vocal humain, simulant la façon dont les vibrations du larynx sont façonnées par la gorge, la langue et les lèvres. Ils ont ensuite utilisé un algorithme d'IA d'inspiration cognitive pour piloter le modèle, générant des simulations sonores tout en tenant compte des modes de communication sonores spécifiques à chaque contexte.

Le modèle peut reproduire une large gamme de sons environnementaux, comme le bruissement des feuilles, le sifflement d'un serpent ou la sirène d'une ambulance. De plus, il peut fonctionner en sens inverse pour prédire des sons réels à partir de simulations de parole humaine, à l'instar de certains systèmes de vision par ordinateur capables de reproduire des images de haute qualité à partir de croquis. Par exemple, le modèle peut distinguer avec précision le « miaou » et le « ronronnement » d'un chat lorsqu'il est imité par un humain.

À l’avenir, ce modèle pourrait conduire à des interfaces « basées sur la simulation » plus intuitives pour les concepteurs sonores, à des personnages d’IA plus humains dans la réalité virtuelle et même à des méthodes pour aider les étudiants à apprendre des langues étrangères.

Les principaux auteurs de l'étude, Kartik Chandra et Karima Ma, étudiantes diplômées du MIT CSAIL, et Matthew Caren, étudiant diplômé, soulignent que les chercheurs en infographie reconnaissent depuis longtemps que le réalisme n'est pas le but ultime de l'expression visuelle. Par exemple, une peinture abstraite ou un dessin d'enfant peuvent être tout aussi expressifs qu'une photographie.

L'art de la simulation sonore en 3 étapes

L'équipe a développé trois versions de plus en plus sophistiquées du modèle afin de le comparer aux simulations sonores humaines. Elle a d'abord créé un modèle de base visant uniquement à générer des simulations aussi proches que possible des sons réels, mais ce modèle ne correspondait pas au comportement humain.

L'équipe a ensuite conçu un deuxième modèle, appelé modèle de « communication ». Selon Caren, ce modèle prend en compte les éléments du son qui sont distinctifs pour l'auditeur. Par exemple, on peut imiter le bruit d'un navire en simulant le rugissement de son moteur, car c'est la caractéristique la plus reconnaissable du son, même s'il n'est pas l'élément le plus fort (comme le clapotis de l'eau). Ce modèle a considérablement progressé par rapport à la première version.

Enfin, l'équipe a enrichi le modèle d'un raisonnement plus poussé. « Les sons simulés peuvent varier selon l'effort fourni », explique Chandra. « Produire des sons précis demande du temps et de l'énergie. » Le modèle final de l'équipe prend cela en compte en évitant les sons trop rapides, trop forts ou trop aigus/graves, éléments moins susceptibles de se produire dans un discours normal. Il en résulte des simulations plus réalistes, reflétant nombre des décisions prises par les humains lorsqu'ils imitent des sons similaires.

Vers une technologie sonore plus expressive

Ce modèle pourrait aider les artistes à mieux communiquer les sons aux systèmes informatiques, aidant ainsi les cinéastes et les créateurs de contenu à créer des sons IA plus pertinents et contextuellement. Il pourrait également permettre aux musiciens d'effectuer des recherches rapides dans des bases de données sonores en simulant un bruit difficile à décrire textuellement.

Parallèlement, l’équipe étudie les applications du modèle dans d’autres domaines, notamment le développement du langage, la façon dont les bébés apprennent à parler et le comportement de mimétisme des oiseaux tels que les perroquets et les oiseaux chanteurs.

Cependant, le modèle actuel présente encore certaines limites : il peine à interpréter des consonnes comme le « z », ce qui conduit à des simulations inexactes de sons comme le bourdonnement d'une abeille. De plus, il ne parvient pas encore à reproduire la manière dont les humains imitent la parole, la musique ou des sons imités différemment selon les langues, comme un battement de cœur.

« La transition d'un vrai cri de chat au mot “miaou” illustre l'interaction complexe entre physiologie, raisonnement social et communication dans l'évolution du langage », a déclaré Robert Hawkins, professeur de linguistique à l'Université de Stanford. « Ce modèle constitue une avancée passionnante dans la formalisation et la validation des théories sur ces processus. »

(Source : MIT News)