Această metodă poate sprijini dezvoltarea de noi interfețe audio pentru sectoarele de divertisment și educație .

imagine001.png
Foto: MIT CSAIL

A imita sunete cu vocea este ca și cum ai schița rapid o imagine pentru a exprima ceva ce ai văzut. În loc să folosești un creion pentru a ilustra imaginea, îți folosești vocalizările pentru a exprima sunetul. Deși acest lucru poate părea dificil, este ceva ce toată lumea face în mod natural. Încearcă să imiți sirena unei ambulanțe, croncănitul unei ciori sau un clopoțel pentru a experimenta acest lucru.

Inspirați de științele cognitive care studiază modul în care comunicăm, cercetătorii de la Laboratorul de Informatică și Inteligență Artificială (CSAIL) al MIT au dezvoltat un sistem de inteligență artificială capabil să genereze simulări sonore asemănătoare celor umane, fără antrenament și fără a fi „auzit” vreodată sunete simulate de oameni.

Pentru a realiza acest lucru, echipa de cercetare și-a conceput sistemul pentru a produce și interpreta sunetul într-un mod care imite vorbirea umană. Au început prin a construi un model al tractului vocal uman, simulând modul în care vibrațiile din laringe sunt modelate de gât, limbă și buze. Apoi, au folosit un algoritm de inteligență artificială inspirat cognitiv pentru a manipula acest model, generând simulări sonore, luând în considerare modalitățile specifice de comunicare vocală în fiecare context.

Acest model poate reproduce o gamă largă de sunete ambientale, cum ar fi foșnetul frunzelor, șuieratul șerpilor sau sirena unei ambulanțe. În plus, modelul poate funcționa invers pentru a prezice sunete reale din simulări ale vorbirii umane, la fel cum unele sisteme de viziune computerizată reproduc imagini de înaltă calitate din schițe. De exemplu, modelul poate distinge cu precizie între sunetul unei pisici care mieunează și sunetul unei pisici care torce atunci când este imitat de un om.

În viitor, acest model ar putea duce la interfețe mai intuitive „bazate pe simulare” pentru designerii de sunet, la personaje AI mai asemănătoare oamenilor în realitatea virtuală și chiar la metode de a ajuta elevii să învețe limbi străine.

Autorii principali ai studiului — studenții absolvenți Kartik Chandra (MIT CSAIL), Karima Ma și cercetătorul Matthew Caren — remarcă faptul că cercetătorii în grafică pe calculator au recunoscut de mult timp că realismul nu este scopul suprem al expresiei vizuale. De exemplu, o pictură abstractă sau o mâzgălitură a unui copil pot fi la fel de expresive ca o fotografie.

Arta imitării sunetelor în 3 etape

Echipa a dezvoltat trei versiuni din ce în ce mai sofisticate ale modelului pentru a le compara cu simulările sunetelor umane. Mai întâi, au creat un model de bază care se concentra exclusiv pe producerea de simulări care semănau cât mai mult cu sunetele reale, dar acest model nu se potrivea cu comportamentul uman.

Apoi, echipa a conceput un al doilea model numit modelul „comunicare”. Potrivit lui Caren, acest model ia în considerare elementele caracteristice ale sunetului pentru ascultător. De exemplu, puteți imita sunetul unei nave simulând vuietul motorului său, deoarece aceasta este cea mai recognoscibilă caracteristică a sunetului, deși nu este elementul cel mai semnificativ (cum ar fi sunetul apei care se lovește, de exemplu). Acest model a reprezentat o îmbunătățire semnificativă față de prima versiune.

În cele din urmă, echipa de cercetare a adăugat un alt nivel de raționament modelului. Chandra a explicat: „Sunetele simulate pot varia în funcție de efortul depus. Crearea de sunete precise necesită timp și energie.” Modelul complet al echipei ia în considerare acest lucru prin evitarea sunetelor prea rapide, prea puternice sau excesiv de înalte/joase – elemente mai puțin susceptibile de a apărea în comunicarea normală. Rezultatul este o simulare sonoră mai asemănătoare cu cea umană, reflectând multe dintre deciziile pe care oamenii le iau atunci când imită sunete similare.

Către o tehnologie audio mai expresivă.

Acest model ar putea ajuta artiștii să comunice sunetul cu sistemele de calcul mai eficient, asistând cineaștii și creatorii de conținut în producerea de sunete bazate pe inteligență artificială, mai relevante pentru contexte specifice. De asemenea, ar putea permite muzicienilor să caute rapid în bazele de date sonore, simulând un sunet dificil de descris în scris.

Între timp, echipa de cercetare explorează aplicațiile acestui model în alte domenii, inclusiv dezvoltarea limbajului, modul în care sugarii învață să vorbească și comportamentul mimic al păsărilor, cum ar fi papagalii sau păsările cântătoare.

Totuși, modelul actual are încă unele limitări: are dificultăți cu consoane precum „z”, ceea ce duce la simulări inexacte ale unor sunete precum bâzâitul. În plus, nu poate reproduce încă modul în care oamenii imită vorbirea, muzica sau diferitele sunete imitate în diverse limbi, cum ar fi bătăile inimii.

Profesorul de lingvistică Robert Hawkins de la Universitatea Stanford a comentat: „Trecerea de la sunetul unei pisici reale la cuvântul «miau» demonstrează interacțiunea complexă dintre fiziologie, raționament social și comunicare în evoluția limbajului. Acest model reprezintă un pas important înainte în formalizarea și testarea teoriilor despre aceste procese.”

(Sursa: MIT News)