Terinspirasi oleh mekanisme laring, model kecerdasan buatan (AI) baru ini dapat menghasilkan dan memahami simulasi suara sehari-hari.
Metode ini dapat mendukung pengembangan antarmuka audio baru untuk sektor hiburan dan pendidikan .

Menirukan suara dengan suara Anda seperti membuat sketsa cepat untuk menyampaikan sesuatu yang telah Anda lihat. Alih-alih menggunakan pensil untuk menggambarkan gambar, Anda menggunakan vokalisasi Anda untuk mengekspresikan suara tersebut. Meskipun ini mungkin tampak sulit, ini adalah sesuatu yang dilakukan setiap orang secara alami. Cobalah menirukan sirene ambulans, suara gagak, atau lonceng untuk merasakannya.
Terinspirasi oleh ilmu kognitif tentang bagaimana kita berkomunikasi, para peneliti di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT telah mengembangkan sistem AI yang mampu menghasilkan simulasi suara mirip manusia tanpa pelatihan dan tanpa pernah "mendengar" suara simulasi manusia sebelumnya.
Untuk mencapai hal ini, tim peneliti merancang sistem mereka untuk menghasilkan dan menginterpretasikan suara dengan cara yang meniru ucapan manusia. Mereka mulai dengan membangun model saluran vokal manusia, mensimulasikan bagaimana getaran dari laring dibentuk oleh tenggorokan, lidah, dan bibir. Kemudian, mereka menggunakan algoritma AI yang terinspirasi secara kognitif untuk memanipulasi model ini, menghasilkan simulasi suara sambil mempertimbangkan cara-cara komunikasi vokal spesifik dalam setiap konteks.
Model ini dapat mereproduksi berbagai macam suara lingkungan, seperti gemerisik daun, desisan ular, atau sirene ambulans. Lebih jauh lagi, model ini dapat bekerja secara terbalik untuk memprediksi suara nyata dari simulasi ucapan manusia, mirip dengan bagaimana beberapa sistem penglihatan komputer mereproduksi gambar berkualitas tinggi dari sketsa. Misalnya, model ini dapat secara akurat membedakan antara suara kucing mengeong dan suara kucing mendengkur ketika ditiru oleh manusia.
Di masa depan, model ini dapat menghasilkan antarmuka berbasis simulasi yang lebih intuitif untuk perancang suara, karakter AI yang lebih mirip manusia dalam realitas virtual, dan bahkan metode untuk membantu siswa dalam mempelajari bahasa asing.
Para penulis utama studi ini—mahasiswa pascasarjana Kartik Chandra (MIT CSAIL), Karima Ma, dan mahasiswa riset Matthew Caren—menyatakan bahwa para peneliti grafis komputer telah lama menyadari bahwa realisme bukanlah tujuan utama ekspresi visual. Misalnya, lukisan abstrak atau coretan anak-anak bisa sama ekspresifnya dengan sebuah foto.
Seni imitasi suara melalui 3 tahap
Tim tersebut mengembangkan tiga versi model yang semakin canggih untuk dibandingkan dengan simulasi suara manusia. Pertama, mereka membuat model dasar yang hanya berfokus pada menghasilkan simulasi yang paling mirip dengan suara nyata, tetapi model ini tidak sesuai dengan perilaku manusia.
Selanjutnya, tim tersebut merancang model kedua yang disebut model "komunikasi". Menurut Caren, model ini mempertimbangkan elemen karakteristik suara bagi pendengar. Misalnya, Anda dapat meniru suara kapal dengan mensimulasikan deru mesinnya, karena itu adalah karakteristik suara yang paling mudah dikenali, meskipun bukan elemen yang paling signifikan (seperti suara deburan air, misalnya). Model ini merupakan peningkatan yang signifikan dibandingkan versi pertama.
Terakhir, tim peneliti menambahkan lapisan penalaran lain pada model tersebut. Chandra menjelaskan, “Suara yang disimulasikan dapat bervariasi tergantung pada seberapa banyak upaya yang Anda curahkan. Menciptakan suara yang akurat membutuhkan waktu dan energi.” Model lengkap tim memperhitungkan hal ini dengan menghindari suara yang terlalu cepat, terlalu keras, atau terlalu tinggi/rendah – elemen yang cenderung tidak muncul dalam komunikasi normal. Hasilnya adalah simulasi suara yang lebih mirip manusia, yang mencerminkan banyak keputusan yang dibuat manusia saat meniru suara serupa.
Menuju teknologi audio yang lebih ekspresif.
Model ini dapat membantu para seniman berkomunikasi melalui suara dengan sistem komputasi secara lebih efektif, membantu para pembuat film dan kreator konten dalam menghasilkan suara AI yang lebih relevan dengan konteks tertentu. Model ini juga memungkinkan para musisi untuk dengan cepat mencari basis data suara dengan mensimulasikan suara yang sulit dijelaskan secara tertulis.
Sementara itu, tim peneliti sedang mengeksplorasi penerapan model ini di bidang lain, termasuk perkembangan bahasa, bagaimana bayi belajar berbicara, dan perilaku meniru burung seperti burung beo atau burung penyanyi.
Namun, model saat ini masih memiliki beberapa keterbatasan: model ini kesulitan dengan konsonan seperti "z," yang menyebabkan simulasi suara seperti dengungan menjadi tidak akurat. Selain itu, model ini belum dapat meniru bagaimana manusia meniru ucapan, musik , atau berbagai suara yang ditiru dalam berbagai bahasa, seperti detak jantung.
Profesor linguistik Robert Hawkins dari Universitas Stanford berkomentar: “Transisi dari suara kucing sungguhan ke kata 'meong' menunjukkan interaksi kompleks antara fisiologi, penalaran sosial, dan komunikasi dalam evolusi bahasa. Model ini merupakan langkah maju yang menarik dalam memformalkan dan menguji teori-teori tentang proses-proses ini.”
(Sumber: Berita MIT)
Sumber: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html






Komentar (0)