Metoda ta może wspomóc rozwój nowych interfejsów audio dla sektora rozrywki i edukacji .

obraz001.png
Zdjęcie: MIT CSAIL

Naśladowanie dźwięków głosem jest jak szybkie szkicowanie obrazu, aby przekazać coś, co się zobaczyło. Zamiast ołówka do zilustrowania obrazu, używasz wokalizacji, aby wyrazić dźwięk. Choć może się to wydawać trudne, każdy robi to naturalnie. Spróbuj naśladować syrenę karetki pogotowia, krakanie wrony lub dzwonek, aby tego doświadczyć.

Zainspirowani naukami kognitywnymi na temat tego, jak się komunikujemy, naukowcy z Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL) na MIT opracowali system sztucznej inteligencji (AI), który potrafi generować symulacje dźwięków przypominających dźwięki wydawane przez człowieka bez konieczności szkolenia i bez wcześniejszego „słyszenia” jakichkolwiek dźwięków symulowanych przez człowieka.

Aby to osiągnąć, zespół badawczy zaprojektował system, który wytwarza i interpretuje dźwięk w sposób naśladujący ludzką mowę. Rozpoczęli od zbudowania modelu ludzkiego narządu głosowego, symulując, jak drgania krtani są kształtowane przez gardło, język i usta. Następnie wykorzystali algorytm sztucznej inteligencji inspirowany kognitywnie do manipulowania tym modelem, generując symulacje dźwięków z uwzględnieniem specyficznych sposobów komunikacji głosowej w każdym kontekście.

Model ten potrafi odtwarzać szeroką gamę dźwięków otoczenia, takich jak szelest liści, syczenie węży czy syrena karetki. Co więcej, model ten może działać w odwrotnej kolejności, aby przewidywać rzeczywiste dźwięki na podstawie symulacji mowy ludzkiej, podobnie jak niektóre systemy wizyjne odtwarzają wysokiej jakości obrazy ze szkiców. Na przykład, model potrafi dokładnie odróżnić miauczenie kota od mruczenia kota naśladowanego przez człowieka.

W przyszłości model ten może doprowadzić do powstania bardziej intuicyjnych interfejsów „opartych na symulacji” dla projektantów dźwięku, bardziej ludzkich postaci AI w wirtualnej rzeczywistości, a nawet metod wspomagających naukę języków obcych.

Główni autorzy badania – studenci studiów podyplomowych Kartik Chandra (MIT CSAIL), Karima Ma i student Matthew Caren – zauważają, że badacze grafiki komputerowej od dawna wiedzą, że realizm nie jest ostatecznym celem ekspresji wizualnej. Na przykład abstrakcyjny obraz lub dziecięcy rysunek mogą być równie ekspresyjne jak fotografia.

Sztuka imitacji dźwięku w 3 etapach

Zespół opracował trzy coraz bardziej zaawansowane wersje modelu, aby porównać je z symulacjami dźwięków wydawanych przez ludzi. Po pierwsze, stworzyli podstawowy model, który koncentrował się wyłącznie na tworzeniu symulacji najbardziej zbliżonych do rzeczywistych dźwięków, ale model ten nie odzwierciedlał zachowań człowieka.

Następnie zespół zaprojektował drugi model, zwany modelem „komunikacji”. Według Caren, model ten uwzględnia charakterystyczne elementy dźwięku dla słuchacza. Na przykład, można naśladować dźwięk statku, symulując ryk jego silnika, ponieważ jest to najbardziej rozpoznawalna cecha dźwięku, choć nie jest to element najważniejszy (jak na przykład dźwięk pluskającej się wody). Model ten stanowił znaczący postęp w stosunku do pierwszej wersji.

Na koniec zespół badawczy dodał do modelu kolejny poziom rozumowania. Chandra wyjaśnił: „Symulowane dźwięki mogą się różnić w zależności od włożonego wysiłku. Stworzenie precyzyjnych dźwięków wymaga czasu i energii”. Kompletny model zespołu uwzględnia to, unikając dźwięków zbyt szybkich, zbyt głośnych lub nadmiernie wysokich/niskich – elementów rzadziej występujących w normalnej komunikacji. Rezultatem są symulacje dźwięków bardziej zbliżone do ludzkich, odzwierciedlające wiele decyzji podejmowanych przez ludzi podczas naśladowania podobnych dźwięków.

W kierunku bardziej ekspresyjnej technologii audio.

Model ten mógłby pomóc artystom w skuteczniejszej komunikacji dźwiękowej z systemami komputerowymi, wspierając filmowców i twórców treści w tworzeniu dźwięków AI, które są bardziej adekwatne do konkretnych kontekstów. Mógłby również umożliwić muzykom szybkie przeszukiwanie baz danych dźwięków poprzez symulację dźwięku, który trudno opisać na piśmie.

Tymczasem zespół badawczy bada zastosowanie tego modelu w innych obszarach, w tym w rozwoju języka, sposobie uczenia się mowy przez niemowlęta oraz w zachowaniach naśladowczych ptaków, takich jak papugi czy ptaki śpiewające.

Jednak obecny model wciąż ma pewne ograniczenia: ma problemy ze spółgłoskami takimi jak „z”, co prowadzi do niedokładnych symulacji dźwięków takich jak brzęczenie. Ponadto, nie jest jeszcze w stanie odtworzyć sposobu, w jaki ludzie naśladują mowę, muzykę ani różne dźwięki imitowane w różnych językach, takie jak bicie serca.

Profesor lingwistyki Robert Hawkins z Uniwersytetu Stanforda skomentował: „Przejście od dźwięku wydawanego przez prawdziwego kota do słowa „miau” pokazuje złożoną interakcję między fizjologią, rozumowaniem społecznym i komunikacją w ewolucji języka. Ten model stanowi ekscytujący krok naprzód w formalizacji i testowaniu teorii dotyczących tych procesów”.

(Źródło: MIT News)