KI beibringen, Laute auszudrücken

Inspiriert von der Mechanik des Kehlkopfes, kann ein neues künstliches Intelligenzmodell (KI) Simulationen von Alltagsgeräuschen erzeugen und verstehen.

Diese Methode kann die Entwicklung neuer Audio-Schnittstellen für den Unterhaltungs- und Bildungssektor unterstützen.

Geräusche mit der Stimme nachzuahmen ist wie eine schnelle Skizze, um etwas Gesehenes zu beschreiben. Anstatt mit einem Stift zu zeichnen, nutzt man die Stimme, um den Klang auszudrücken. Das mag schwierig erscheinen, ist aber etwas, das jeder ganz natürlich tut. Versuchen Sie, eine Krankenwagensirene, das Krächzen einer Krähe oder eine Glocke nachzuahmen, um es selbst zu erleben.

Inspiriert von Erkenntnissen der Kognitionswissenschaft über unsere Kommunikation haben Forscher am Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT ein KI-System entwickelt, das in der Lage ist, menschenähnliche Klangsimulationen zu erzeugen, ohne dafür trainiert worden zu sein und ohne jemals zuvor von Menschen erzeugte Geräusche „gehört“ zu haben.

Um dies zu erreichen, entwickelte das Forschungsteam ein System, das Geräusche so erzeugt und interpretiert, dass sie der menschlichen Sprache ähneln. Zunächst erstellten sie ein Modell des menschlichen Vokaltrakts und simulierten, wie die Schwingungen des Kehlkopfes durch Rachen, Zunge und Lippen geformt werden. Anschließend nutzten sie einen kognitiv inspirierten KI-Algorithmus, um dieses Modell zu manipulieren und Klangsimulationen zu generieren, wobei sie die spezifischen Formen der vokalen Kommunikation in jedem Kontext berücksichtigten.

Dieses Modell kann eine Vielzahl von Umgebungsgeräuschen reproduzieren, beispielsweise das Rascheln von Blättern, das Zischen von Schlangen oder das Heulen einer Krankenwagensirene. Darüber hinaus kann es umgekehrt funktionieren und reale Geräusche aus simulierter menschlicher Sprache vorhersagen, ähnlich wie manche Computer-Vision-Systeme hochauflösende Bilder aus Skizzen erzeugen. So kann das Modell beispielsweise das Miauen und das Schnurren einer Katze präzise unterscheiden, wenn es von einem Menschen nachgeahmt wird.

Zukünftig könnte dieses Modell zu intuitiveren, „simulationsbasierten“ Schnittstellen für Sounddesigner, menschenähnlicheren KI-Charakteren in der virtuellen Realität und sogar zu Methoden führen, die Schüler beim Erlernen von Fremdsprachen unterstützen.

Die Hauptautoren der Studie – die Doktoranden Kartik Chandra (MIT CSAIL) und Karima Ma sowie der Forschungsstudent Matthew Caren – weisen darauf hin, dass Forscher im Bereich der Computergrafik schon lange wissen, dass Realismus nicht das oberste Ziel visueller Ausdrucksformen ist. So kann beispielsweise ein abstraktes Gemälde oder eine Kinderzeichnung genauso ausdrucksstark sein wie ein Foto.

Die Kunst der Klangimitation in 3 Phasen

Das Team entwickelte drei zunehmend ausgefeiltere Versionen des Modells, um sie mit Simulationen menschlicher Geräusche zu vergleichen. Zunächst erstellten sie ein Basismodell, das sich ausschließlich darauf konzentrierte, Simulationen zu erzeugen, die realen Geräuschen möglichst nahe kamen; dieses Modell bildete jedoch das menschliche Verhalten nicht ab.

Anschließend entwickelte das Team ein zweites Modell, das sogenannte „Kommunikationsmodell“. Laut Caren berücksichtigt dieses Modell die für den Zuhörer charakteristischen Klangelemente. So lässt sich beispielsweise das Geräusch eines Schiffes durch die Simulation des Motorengeräusches nachahmen, da dies das markanteste Merkmal des Klangs ist, auch wenn es nicht das wichtigste Element darstellt (wie etwa das Plätschern von Wasser). Dieses Modell war eine deutliche Verbesserung gegenüber der ersten Version.

Schließlich fügte das Forschungsteam dem Modell eine weitere Argumentationsebene hinzu. Chandra erklärte: „Die simulierten Geräusche können je nach Aufwand variieren. Die Erzeugung realistischer Geräusche erfordert Zeit und Energie.“ Das vollständige Modell des Teams berücksichtigt dies, indem es zu schnelle, zu laute oder extrem hohe/niedrige Geräusche vermeidet – Elemente, die in der normalen Kommunikation eher selten vorkommen. Das Ergebnis sind menschenähnlichere Klangsimulationen, die viele der Entscheidungen widerspiegeln, die Menschen bei der Nachahmung ähnlicher Geräusche treffen.

Hin zu ausdrucksstärkerer Audiotechnologie.

Dieses Modell könnte Künstlern helfen, Klänge effektiver mit Computersystemen zu kommunizieren und Filmemacher sowie Content-Ersteller bei der Produktion von KI-generierten Klängen unterstützen, die besser auf spezifische Kontexte abgestimmt sind. Es könnte Musikern außerdem ermöglichen, schnell in Klangdatenbanken zu suchen, indem es Klänge simuliert, die sich schriftlich nur schwer beschreiben lassen.

Das Forschungsteam untersucht derweil auch Anwendungsmöglichkeiten dieses Modells in anderen Bereichen, darunter die Sprachentwicklung, wie Säuglinge sprechen lernen und das Mimikryverhalten von Vögeln wie Papageien oder Singvögeln.

Das aktuelle Modell weist jedoch noch einige Einschränkungen auf: Es hat Schwierigkeiten mit Konsonanten wie „z“, was zu ungenauen Simulationen von Geräuschen wie Summen führt. Außerdem kann es noch nicht nachbilden, wie Menschen Sprache, Musik oder die verschiedenen Laute, die in unterschiedlichen Sprachen imitiert werden, wie beispielsweise Herzschläge, imitieren.

Robert Hawkins, Professor für Linguistik an der Stanford University, kommentierte: „Der Übergang vom Laut einer echten Katze zum Wort ‚Miau‘ verdeutlicht das komplexe Zusammenspiel von Physiologie, sozialem Denken und Kommunikation in der Sprachentwicklung. Dieses Modell ist ein vielversprechender Schritt zur Formalisierung und Überprüfung von Theorien über diese Prozesse.“

(Quelle: MIT News)

Quelle: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html