Lära AI att uttrycka ljud

Inspirerad av struphuvudets mekanik kan en ny modell för artificiell intelligens (AI) generera och förstå simuleringar av vardagliga ljud.

Denna metod kan stödja utvecklingen av nya ljudgränssnitt för underhållnings- och utbildningssektorerna .

Att härma ljud med rösten är som att skissa en snabb bild för att förmedla något du har sett. Istället för att använda en penna för att illustrera bilden använder du dina vokaliseringar för att uttrycka ljudet. Även om detta kan verka svårt är det något som alla gör naturligt. Försök att härma en ambulanssiren, ett kråkskrik eller en klocka för att uppleva detta.

Inspirerade av kognitiv vetenskap om hur vi kommunicerar har forskare vid MIT:s datavetenskapliga och artificiella intelligenslaboratorium (CSAIL) utvecklat ett AI-system som kan generera människoliknande ljudsimuleringar utan träning och utan att någonsin ha "hört" några människosimulerade ljud tidigare.

För att uppnå detta designade forskargruppen sitt system för att producera och tolka ljud på ett sätt som efterliknar mänskligt tal. De började med att bygga en modell av den mänskliga röstvägen och simulerade hur vibrationer från struphuvudet formas av halsen, tungan och läpparna. Sedan använde de en kognitivt inspirerad AI-algoritm för att manipulera denna modell och genererade ljudsimuleringar samtidigt som de beaktade de specifika sätten för vokal kommunikation i varje sammanhang.

Den här modellen kan återge en mängd olika miljöljud, såsom prasslande löv, väsande ormar eller sirenen från en ambulans. Dessutom kan modellen fungera i omvänd ordning för att förutsäga verkliga ljud från simuleringar av mänskligt tal, ungefär som hur vissa datorseendesystem återger högkvalitativa bilder från skisser. Till exempel kan modellen exakt skilja mellan ljudet av en katt som jamar och ljudet av en katt som spinner när den imiteras av en människa.

I framtiden skulle den här modellen kunna leda till mer intuitiva ”simuleringsbaserade” gränssnitt för ljuddesigners, mer människoliknande AI-karaktärer i virtuell verklighet och till och med metoder för att hjälpa elever att lära sig främmande språk.

Studiens huvudförfattare – doktoranderna Kartik Chandra (MIT CSAIL), Karima Ma och forskarstudenten Matthew Caren – noterar att forskare inom datorgrafik länge har insett att realism inte är det yttersta målet för visuellt uttryck. Till exempel kan en abstrakt målning eller ett barns klotter vara lika uttrycksfullt som ett fotografi.

Konsten att imitera ljud genom 3 steg

Teamet utvecklade tre alltmer sofistikerade versioner av modellen för att jämföra med simuleringar av mänskliga ljud. Först skapade de en grundläggande modell som enbart fokuserade på att producera simuleringar som mest liknade verkliga ljud, men denna modell matchade inte mänskligt beteende.

Därefter utformade teamet en andra modell som kallas ”kommunikationsmodellen”. Enligt Caren tar denna modell hänsyn till ljudets karaktäristiska element för lyssnaren. Till exempel kan man härma ljudet av ett fartyg genom att simulera motorns dån, eftersom det är ljudets mest igenkännbara egenskap, även om det inte är det viktigaste elementet (som ljudet av vatten som skvalpar, till exempel). Denna modell var en betydande förbättring jämfört med den första versionen.

Slutligen lade forskargruppen till ytterligare ett lager av resonemang till modellen. Chandra förklarade: ”De simulerade ljuden kan variera beroende på hur mycket ansträngning man lägger ner. Att skapa exakta ljud kräver tid och energi.” Teamets kompletta modell tar hänsyn till detta genom att undvika ljud som är för snabba, för höga eller alltför höga/låga – element som är mindre benägna att förekomma i normal kommunikation. Resultatet är mer människoliknande ljudsimuleringar, vilket återspeglar många av de beslut människor fattar när de imiterar liknande ljud.

Mot mer uttrycksfull ljudteknik.

Den här modellen skulle kunna hjälpa artister att kommunicera ljud med datorsystem mer effektivt, vilket skulle hjälpa filmskapare och innehållsskapare att producera AI-ljud som är mer relevanta för specifika sammanhang. Den skulle också kunna göra det möjligt för musiker att snabbt söka i ljuddatabaser genom att simulera ett ljud som är svårt att beskriva skriftligt.

Samtidigt utforskar forskargruppen tillämpningar av denna modell inom andra områden, inklusive språkutveckling, hur spädbarn lär sig att tala och härmningsbeteendet hos fåglar som papegojor eller sångfåglar.

Den nuvarande modellen har dock fortfarande vissa begränsningar: den kämpar med konsonanter som "z", vilket leder till felaktiga simuleringar av ljud som surrande. Dessutom kan den ännu inte replikera hur människor härmar tal, musik eller de olika ljud som härmas på olika språk, såsom hjärtslag.

Professor i lingvistik Robert Hawkins vid Stanford University kommenterade: ”Övergången från ljudet av en riktig katt till ordet 'mjau' visar det komplexa samspelet mellan fysiologi, socialt resonemang och kommunikation i språkets utveckling. Denna modell är ett spännande steg framåt i att formalisera och testa teorier om dessa processer.”

Inspirerad av struphuvudets mekanik kan en ny modell för artificiell intelligens (AI) generera och förstå simuleringar av vardagliga ljud.

Kommentar (0)