Mengajar AI untuk mengekspresikan bunyi

Diinspirasikan oleh mekanik larinks, model kecerdasan buatan (AI) baharu boleh menjana dan memahami simulasi bunyi harian.

Kaedah ini dapat menyokong pembangunan antara muka audio baharu untuk sektor hiburan dan pendidikan .

Meniru bunyi dengan suara anda umpama melakar gambar ringkas untuk menyampaikan sesuatu yang telah anda lihat. Daripada menggunakan pensel untuk menggambarkan imej, anda menggunakan vokalisasi anda untuk meluahkan bunyi tersebut. Walaupun ini mungkin kelihatan sukar, ia adalah sesuatu yang dilakukan oleh semua orang secara semula jadi. Cuba tiru siren ambulans, bunyi burung gagak atau loceng untuk mengalaminya.

Diinspirasikan oleh sains kognitif tentang cara kita berkomunikasi, para penyelidik di Makmal Sains Komputer dan Kecerdasan Buatan MIT (CSAIL) telah membangunkan sistem AI yang mampu menghasilkan simulasi bunyi seperti manusia tanpa latihan dan tanpa pernah "mendengar" sebarang bunyi simulasi manusia sebelum ini.

Untuk mencapai matlamat ini, pasukan penyelidikan mereka bentuk sistem mereka untuk menghasilkan dan mentafsir bunyi dengan cara yang meniru pertuturan manusia. Mereka bermula dengan membina model saluran vokal manusia, mensimulasikan bagaimana getaran dari larinks dibentuk oleh tekak, lidah dan bibir. Kemudian, mereka menggunakan algoritma AI yang diilhamkan secara kognitif untuk memanipulasi model ini, menghasilkan simulasi bunyi sambil mempertimbangkan cara komunikasi vokal tertentu dalam setiap konteks.

Model ini boleh menghasilkan semula pelbagai jenis bunyi persekitaran, seperti bunyi gemerisik daun, desisan ular, atau siren ambulans. Tambahan pula, model ini boleh berfungsi secara terbalik untuk meramalkan bunyi sebenar daripada simulasi pertuturan manusia, seperti bagaimana sesetengah sistem penglihatan komputer menghasilkan semula imej berkualiti tinggi daripada lakaran. Contohnya, model ini boleh membezakan dengan tepat antara bunyi kucing mengiau dan bunyi kucing mendengkur apabila ditiru oleh manusia.

Pada masa hadapan, model ini boleh membawa kepada antara muka "berasaskan simulasi" yang lebih intuitif untuk pereka bunyi, watak AI yang lebih menyerupai manusia dalam realiti maya, dan juga kaedah untuk membantu pelajar mempelajari bahasa asing.

Penulis utama kajian ini—pelajar siswazah Kartik Chandra (MIT CSAIL), Karima Ma, dan pelajar penyelidikan Matthew Caren—menyatakan bahawa penyelidik grafik komputer telah lama menyedari bahawa realisme bukanlah matlamat utama ekspresi visual. Contohnya, lukisan abstrak atau contengan kanak-kanak boleh sama ekspresifnya dengan gambar.

Seni peniruan bunyi melalui 3 peringkat

Pasukan ini membangunkan tiga versi model yang semakin canggih untuk dibandingkan dengan simulasi bunyi manusia. Pertama, mereka mencipta model asas yang hanya tertumpu pada menghasilkan simulasi yang paling menyerupai bunyi sebenar, tetapi model ini tidak sepadan dengan tingkah laku manusia.

Seterusnya, pasukan itu mereka bentuk model kedua yang dipanggil model "komunikasi". Menurut Caren, model ini mempertimbangkan elemen ciri bunyi untuk pendengar. Contohnya, anda boleh meniru bunyi kapal dengan mensimulasikan deruman enjinnya, kerana itulah ciri bunyi yang paling dikenali, walaupun ia bukanlah elemen yang paling penting (seperti bunyi air yang berdentum, misalnya). Model ini merupakan penambahbaikan yang ketara berbanding versi pertama.

Akhirnya, pasukan penyelidik menambah satu lagi lapisan penaakulan pada model tersebut. Chandra menjelaskan, “Bunyi simulasi boleh berbeza-beza bergantung pada berapa banyak usaha yang anda lakukan. Mencipta bunyi yang tepat memerlukan masa dan tenaga.” Model lengkap pasukan menjelaskan perkara ini dengan mengelakkan bunyi yang terlalu pantas, terlalu kuat atau terlalu tinggi/rendah – elemen yang kurang berkemungkinan muncul dalam komunikasi biasa. Hasilnya adalah simulasi bunyi yang lebih menyerupai manusia, mencerminkan banyak keputusan yang dibuat oleh manusia apabila meniru bunyi yang serupa.

Ke arah teknologi audio yang lebih ekspresif.

Model ini dapat membantu artis menyampaikan bunyi dengan sistem pengkomputeran dengan lebih berkesan, membantu pembikin filem dan pencipta kandungan dalam menghasilkan bunyi AI yang lebih relevan dengan konteks tertentu. Ia juga membolehkan pemuzik mencari pangkalan data bunyi dengan cepat dengan mensimulasikan bunyi yang sukar untuk digambarkan secara bertulis.

Sementara itu, pasukan penyelidikan sedang meneroka aplikasi model ini dalam bidang lain, termasuk perkembangan bahasa, bagaimana bayi belajar bercakap, dan tingkah laku mimikri burung seperti burung kakak tua atau burung penyanyi.

Walau bagaimanapun, model semasa masih mempunyai beberapa batasan: ia bergelut dengan konsonan seperti "z", yang membawa kepada simulasi bunyi seperti dengungan yang tidak tepat. Selain itu, ia masih tidak dapat meniru bagaimana manusia meniru pertuturan, muzik atau bunyi berbeza yang ditiru dalam pelbagai bahasa, seperti degupan jantung.

Profesor linguistik Robert Hawkins di Universiti Stanford mengulas: “Peralihan daripada bunyi kucing sebenar kepada perkataan 'meow' menunjukkan interaksi kompleks antara fisiologi, penaakulan sosial dan komunikasi dalam evolusi bahasa. Model ini merupakan langkah ke hadapan yang menarik dalam memformalkan dan menguji teori tentang proses ini.”

(Sumber: Berita MIT)

[iklan_2]
Sumber: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html