A gége mechanikája ihlette egy új mesterséges intelligencia (MI) modellt, amely képes a mindennapi hangok szimulációinak generálására és megértésére.
Ez a módszer támogathatja új audio interfészek fejlesztését a szórakoztató és oktatási szektor számára.

A hangok utánzása a saját hangoddal olyan, mintha egy gyors képet vázolnál fel, hogy visszaadj valamit, amit láttál. Ahelyett, hogy ceruzával illusztrálnád a képet, a hangképzéseddel fejezed ki a hangot. Bár ez nehéznek tűnhet, mindenki természetes módon csinálja. Próbáld ki egy mentősziréna, egy varjú károgása vagy egy csengő utánzását, hogy megtapasztald ezt.
A kommunikációnkat vizsgáló kognitív tudomány ihlette az MIT Számítástechnikai és Mesterséges Intelligencia Laboratóriumának (CSAIL) kutatói egy olyan mesterséges intelligencia rendszert fejlesztettek ki, amely képes emberszerű hangszimulációk generálására betanítás nélkül, anélkül, hogy korábban valaha is „hallott volna” ember által szimulált hangokat.
Ennek elérése érdekében a kutatócsoport úgy tervezte meg rendszerét, hogy az emberi beszédet utánozva állítson elő és értelmezzen hangot. Először is felépítették az emberi hangképző szervek modelljét, szimulálva, hogyan alakítja a gége rezgéseit a torok, a nyelv és az ajkak. Ezután egy kognitívan inspirált mesterséges intelligencia algoritmust használtak a modell manipulálására, hangszimulációkat generálva, miközben figyelembe vették a hangkommunikáció specifikus módjait minden kontextusban.
Ez a modell a környezeti hangok széles skáláját képes reprodukálni, például a levelek susogását, a kígyók sziszegését vagy a mentőautó szirénáját. Továbbá a modell fordított irányban is képes működni, így valós hangokat jósol meg az emberi beszéd szimulációiból, hasonlóan ahhoz, ahogyan egyes számítógépes látórendszerek kiváló minőségű képeket reprodukálnak vázlatokból. Például a modell pontosan meg tudja különböztetni egy macska nyávogását a macska dorombolásának hangjától, amikor egy ember utánozza azt.
A jövőben ez a modell intuitívabb „szimulációalapú” interfészekhez vezethet a hangdizájnerek számára, emberszerűbb mesterséges intelligencia karakterekhez a virtuális valóságban, sőt olyan módszerekhez is, amelyek segítik a diákokat az idegen nyelvek tanulásában.
A tanulmány vezető szerzői – Kartik Chandra (MIT CSAIL) és Karima Ma végzős hallgatók, valamint Matthew Caren kutató – megjegyzik, hogy a számítógépes grafika kutatói már régóta felismerték, hogy a realizmus nem a vizuális kifejezés végső célja. Például egy absztrakt festmény vagy egy gyermek rajza ugyanolyan kifejező lehet, mint egy fénykép.
A hangutánzás művészete 3 szakaszban
A csapat a modell három, egyre kifinomultabb változatát fejlesztette ki az emberi hang szimulációival való összehasonlításhoz. Először egy alapmodellt hoztak létre, amely kizárólag a valódi hangokhoz leginkább hasonlító szimulációk előállítására összpontosított, de ez a modell nem felelt meg az emberi viselkedésnek.
Ezután a csapat egy második modellt tervezett, az úgynevezett „kommunikációs” modellt. Caren szerint ez a modell figyelembe veszi a hallgató számára a hang jellemző elemeit. Például egy hajó hangját utánozhatjuk a motor zúgásának szimulálásával, mivel ez a hang legfelismerhetőbb jellemzője, bár nem a legjelentősebb elem (mint például a víz csapkodásának hangja). Ez a modell jelentős előrelépést jelentett az első verzióhoz képest.
Végül a kutatócsoport egy újabb érvelési réteggel bővítette a modellt. Chandra elmagyarázta: „A szimulált hangok változhatnak attól függően, hogy mennyi erőfeszítést fektetünk bele. A pontos hangok létrehozása időt és energiát igényel.” A csapat teljes modellje ezt úgy veszi figyelembe, hogy elkerüli a túl gyors, túl hangos vagy túlzottan magas/alacsony hangokat – ezek az elemek kisebb valószínűséggel jelennek meg a normál kommunikációban. Az eredmény emberibb hangszimulációk, amelyek tükrözik az emberek által a hasonló hangok utánzása során hozott döntések nagy részét.
A kifejezőbb audiotechnológia felé.
Ez a modell segíthet a művészeknek abban, hogy hatékonyabban kommunikáljanak a hanggal a számítógépes rendszerekkel, támogatva a filmeseket és a tartalomkészítőket olyan mesterséges intelligencia által vezérelt hangok létrehozásában, amelyek relevánsabbak az adott kontextusokhoz. Lehetővé teheti a zenészek számára is, hogy gyorsan keressenek hangadatbázisokban egy olyan hang szimulálásával, amelyet írásban nehéz leírni.
Eközben a kutatócsoport a modell más területeken való alkalmazását vizsgálja, beleértve a nyelvi fejlődést, a csecsemők beszédtanulását, valamint a madarak, például a papagájok vagy az énekesmadarak mimikri viselkedését.
A jelenlegi modellnek azonban továbbra is vannak korlátai: nehezen kezeli az olyan mássalhangzókat, mint a „z”, ami pontatlan szimulációkat eredményez, például a zümmögést. Ezenkívül még nem tudja lemásolni, hogyan utánozzák az emberek a beszédet, a zenét vagy a különböző nyelveken utánzott hangokat, például a szívverést.
Robert Hawkins nyelvészeti professzor a Stanford Egyetemen így nyilatkozott: „Az igazi macska hangjától a „miau” szóig tartó átmenet a fiziológia, a szociális gondolkodás és a kommunikáció összetett kölcsönhatását mutatja be a nyelv evolúciójában. Ez a modell izgalmas lépést jelent e folyamatokról szóló elméletek formalizálásában és tesztelésében.”
(Forrás: MIT Hírek)
[hirdetés_2]
Forrás: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html






Hozzászólás (0)