AI leren om geluid uit te drukken

Geïnspireerd door de mechanica van het strottenhoofd, kan een nieuw model voor kunstmatige intelligentie (AI) simulaties van alledaagse geluiden genereren en begrijpen.

Deze methode kan de ontwikkeling van nieuwe audio-interfaces voor de entertainment- en onderwijssector ondersteunen.

Het nabootsen van geluiden met je stem is vergelijkbaar met het snel schetsen van iets wat je hebt gezien. In plaats van een potlood te gebruiken om de afbeelding te tekenen, gebruik je je stem om het geluid weer te geven. Hoewel dit misschien moeilijk lijkt, doet iedereen het van nature. Probeer eens een ambulancesirene, het gekraai van een kraai of een bel na te bootsen om dit te ervaren.

Geïnspireerd door de cognitieve wetenschap over hoe we communiceren, hebben onderzoekers van het Computer Science and Artificial Intelligence Laboratory (CSAIL) van MIT een AI-systeem ontwikkeld dat in staat is om mensachtige geluidssimulaties te genereren zonder training en zonder ooit eerder menselijke geluiden te hebben "gehoord".

Om dit te bereiken, ontwierp het onderzoeksteam een systeem dat geluid produceert en interpreteert op een manier die menselijke spraak nabootst. Ze begonnen met het bouwen van een model van het menselijke spraakapparaat, waarbij ze simuleerden hoe trillingen vanuit het strottenhoofd worden gevormd door de keel, tong en lippen. Vervolgens gebruikten ze een cognitief geïnspireerd AI-algoritme om dit model te manipuleren en geluidssimulaties te genereren, rekening houdend met de specifieke manieren van vocale communicatie in elke context.

Dit model kan een breed scala aan omgevingsgeluiden reproduceren, zoals het ritselen van bladeren, het sissen van slangen of de sirene van een ambulance. Bovendien kan het model ook omgekeerd werken om echte geluiden te voorspellen op basis van gesimuleerde menselijke spraak, vergelijkbaar met hoe sommige computervisiessystemen hoogwaardige afbeeldingen reproduceren op basis van schetsen. Zo kan het model bijvoorbeeld nauwkeurig onderscheid maken tussen het miauwen van een kat en het spinnen van een kat wanneer dit door een mens wordt nagebootst.

In de toekomst zou dit model kunnen leiden tot meer intuïtieve, op simulatie gebaseerde interfaces voor geluidsontwerpers, meer mensachtige AI-personages in virtual reality en zelfs methoden om studenten te helpen bij het leren van vreemde talen.

De hoofdauteurs van de studie – promovendi Kartik Chandra (MIT CSAIL), Karima Ma en onderzoeksstudent Matthew Caren – merken op dat onderzoekers op het gebied van computergrafiek al lang erkennen dat realisme niet het ultieme doel van visuele expressie is. Een abstract schilderij of een kindertekening kan bijvoorbeeld net zo expressief zijn als een foto.

De kunst van geluidsimitatie in 3 fasen

Het team ontwikkelde drie steeds geavanceerdere versies van het model om te vergelijken met simulaties van menselijk geluid. Eerst creëerden ze een basismodel dat zich uitsluitend richtte op het produceren van simulaties die het meest op echte geluiden leken, maar dit model kwam niet overeen met menselijk gedrag.

Vervolgens ontwierp het team een tweede model, het zogenaamde 'communicatiemodel'. Volgens Caren houdt dit model rekening met de karakteristieke elementen van geluid voor de luisteraar. Je kunt bijvoorbeeld het geluid van een schip nabootsen door het gebrul van de motor te simuleren, aangezien dat het meest herkenbare kenmerk van het geluid is, hoewel het niet het belangrijkste element is (zoals bijvoorbeeld het geluid van kabbelend water). Dit model was een aanzienlijke verbetering ten opzichte van de eerste versie.

Ten slotte voegde het onderzoeksteam nog een extra redeneerlaag toe aan het model. Chandra legde uit: "De gesimuleerde geluiden kunnen variëren, afhankelijk van hoeveel moeite je erin steekt. Het creëren van accurate geluiden kost tijd en energie." Het complete model van het team houdt hier rekening mee door geluiden te vermijden die te snel, te luid of te hoog/laag zijn – elementen die minder vaak voorkomen in normale communicatie. Het resultaat zijn meer mensachtige geluidssimulaties, die veel van de beslissingen weerspiegelen die mensen nemen bij het imiteren van soortgelijke geluiden.

Op weg naar expressievere audiotechnologie.

Dit model zou kunstenaars kunnen helpen om geluid effectiever te communiceren met computersystemen, en filmmakers en contentmakers ondersteunen bij het produceren van AI-geluiden die relevanter zijn voor specifieke contexten. Het zou muzikanten ook in staat kunnen stellen om snel geluidsdatabases te doorzoeken door een geluid te simuleren dat moeilijk schriftelijk te beschrijven is.

Ondertussen onderzoekt het onderzoeksteam de toepassingen van dit model op andere gebieden, waaronder taalontwikkeling, hoe baby's leren spreken en het nabootsingsgedrag van vogels zoals papegaaien of zangvogels.

Het huidige model kent echter nog enkele beperkingen: het heeft moeite met medeklinkers zoals de "z", wat leidt tot onnauwkeurige simulaties van geluiden zoals zoemen. Bovendien kan het nog niet nabootsen hoe mensen spraak, muziek of de verschillende geluiden die in diverse talen worden nagebootst, zoals hartslagen, imiteren.

Professor Robert Hawkins, hoogleraar taalkunde aan de Stanford University, merkte op: "De overgang van het geluid van een echte kat naar het woord 'miauw' demonstreert de complexe wisselwerking tussen fysiologie, sociaal redeneren en communicatie in de evolutie van taal. Dit model is een spannende stap voorwaarts in het formaliseren en testen van theorieën over deze processen."

Geïnspireerd door de mechanica van het strottenhoofd, kan een nieuw model voor kunstmatige intelligentie (AI) simulaties van alledaagse geluiden genereren en begrijpen.

Reactie (0)