Lære AI å uttrykke lyd

Inspirert av mekanikken i strupehodet, kan en ny modell for kunstig intelligens (KI) generere og forstå simuleringer av hverdagslyder.

Denne metoden kan støtte utviklingen av nye lydgrensesnitt for underholdnings- og utdanningssektoren .

Å etterligne lyder med stemmen din er som å skisse et raskt bilde for å formidle noe du har sett. I stedet for å bruke en blyant til å illustrere bildet, bruker du vokaliseringene dine til å uttrykke lyden. Selv om dette kan virke vanskelig, er det noe alle gjør naturlig. Prøv å etterligne en ambulansesirene, et kråkeskrik eller en bjelle for å oppleve dette.

Inspirert av kognitiv vitenskap om hvordan vi kommuniserer, har forskere ved MITs Computer Science and Artificial Intelligence Laboratory (CSAIL) utviklet et AI-system som er i stand til å generere menneskelignende lydsimuleringer uten trening og uten å ha «hørt» noen menneskesimulerte lyder før.

For å oppnå dette designet forskerteamet systemet sitt for å produsere og tolke lyd på en måte som etterligner menneskelig tale. De begynte med å bygge en modell av den menneskelige stemmeveien, som simulerte hvordan vibrasjoner fra strupehodet formes av halsen, tungen og leppene. Deretter brukte de en kognitivt inspirert AI-algoritme for å manipulere denne modellen, og genererte lydsimuleringer samtidig som de vurderte de spesifikke måtene for vokal kommunikasjon i hver kontekst.

Denne modellen kan gjengi et bredt utvalg av miljølyder, som raslingen av blader, susingen av slanger eller sirenen fra en ambulanse. Videre kan modellen fungere i motsatt retning for å forutsi virkelige lyder fra simuleringer av menneskelig tale, omtrent på samme måte som noen datasynssystemer gjengir bilder av høy kvalitet fra skisser. For eksempel kan modellen nøyaktig skille mellom lyden av en mjauende katt og lyden av en malende katt når den imiteres av et menneske.

I fremtiden kan denne modellen føre til mer intuitive «simuleringsbaserte» grensesnitt for lyddesignere, mer menneskelignende AI-figurer i virtuell virkelighet, og til og med metoder for å hjelpe studenter med å lære fremmedspråk.

Studiens hovedforfattere – masterstudentene Kartik Chandra (MIT CSAIL), Karima Ma og forskningsstudent Matthew Caren – bemerker at forskere innen datagrafikk lenge har erkjent at realisme ikke er det endelige målet for visuelt uttrykk. For eksempel kan et abstrakt maleri eller en barnekrusedull være like uttrykksfullt som et fotografi.

Kunsten å imitere lyd gjennom 3 stadier

Teamet utviklet tre stadig mer sofistikerte versjoner av modellen for å sammenligne dem med simuleringer av menneskelige lyder. Først laget de en grunnleggende modell som utelukkende fokuserte på å produsere simuleringer som lignet mest mulig på ekte lyder, men denne modellen samsvarte ikke med menneskelig atferd.

Deretter utviklet teamet en andre modell kalt «kommunikasjonsmodellen». Ifølge Caren tar denne modellen hensyn til de karakteristiske elementene ved lyd for lytteren. For eksempel kan man etterligne lyden av et skip ved å simulere brølet fra motoren, da det er den mest gjenkjennelige egenskapen ved lyden, selv om det ikke er det viktigste elementet (som for eksempel lyden av vann som skvulper). Denne modellen var en betydelig forbedring i forhold til den første versjonen.

Til slutt la forskerteamet til et nytt lag med resonnement i modellen. Chandra forklarte: «De simulerte lydene kan variere avhengig av hvor mye innsats du legger i det. Å lage nøyaktige lyder krever tid og energi.» Teamets komplette modell tar hensyn til dette ved å unngå lyder som er for raske, for høye eller overdrevent høye/lave – elementer som er mindre sannsynlige å dukke opp i normal kommunikasjon. Resultatet er mer menneskelignende lydsimuleringer, som gjenspeiler mange av beslutningene mennesker tar når de imiterer lignende lyder.

Mot mer uttrykksfull lydteknologi.

Denne modellen kan hjelpe kunstnere med å kommunisere lyd med datasystemer mer effektivt, og dermed hjelpe filmskapere og innholdsskapere med å produsere AI-lyder som er mer relevante for spesifikke kontekster. Den kan også gjøre det mulig for musikere å raskt søke i lyddatabaser ved å simulere en lyd som er vanskelig å beskrive skriftlig.

I mellomtiden utforsker forskerteamet anvendelser av denne modellen på andre områder, inkludert språkutvikling, hvordan spedbarn lærer å snakke og mimikkatferden til fugler som papegøyer eller sangfugler.

Den nåværende modellen har imidlertid fortsatt noen begrensninger: den sliter med konsonanter som «z», noe som fører til unøyaktige simuleringer av lyder som summing. I tillegg kan den ennå ikke gjenskape hvordan mennesker etterligner tale, musikk eller de forskjellige lydene som etterlignes på forskjellige språk, for eksempel hjerteslag.

Professor i lingvistikk Robert Hawkins ved Stanford University kommenterte: «Overgangen fra lyden av en ekte katt til ordet 'mjau' demonstrerer det komplekse samspillet mellom fysiologi, sosial resonnering og kommunikasjon i språkets utvikling. Denne modellen er et spennende skritt fremover i å formalisere og teste teorier om disse prosessene.»

Inspirert av mekanikken i strupehodet, kan en ny modell for kunstig intelligens (KI) generere og forstå simuleringer av hverdagslyder.

Kommentar (0)