این روش می‌تواند از توسعه رابط‌های صوتی جدید برای بخش‌های سرگرمی و آموزش پشتیبانی کند.

تصویر001.png
عکس: MIT CSAIL

تقلید صداها با صدایتان مانند طراحی سریع یک تصویر برای انتقال چیزی است که دیده‌اید. به جای استفاده از مداد برای نشان دادن تصویر، از آواهای خود برای بیان صدا استفاده می‌کنید. اگرچه این ممکن است دشوار به نظر برسد، اما کاری است که همه به طور طبیعی انجام می‌دهند. سعی کنید آژیر آمبولانس، قارقار کلاغ یا زنگ را تقلید کنید تا این را تجربه کنید.

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) با الهام از علوم شناختی در مورد نحوه ارتباط ما، یک سیستم هوش مصنوعی توسعه داده‌اند که قادر به تولید شبیه‌سازی‌های صوتی شبیه به انسان بدون آموزش و بدون اینکه قبلاً هیچ صدای شبیه‌سازی شده انسانی را "شنیده" باشد، می‌باشد.

برای دستیابی به این هدف، تیم تحقیقاتی سیستم خود را برای تولید و تفسیر صدا به روشی که گفتار انسان را تقلید می‌کند، طراحی کردند. آنها با ساخت مدلی از دستگاه صوتی انسان شروع کردند و نحوه شکل‌گیری ارتعاشات حنجره توسط گلو، زبان و لب‌ها را شبیه‌سازی کردند. سپس، آنها از یک الگوریتم هوش مصنوعی با الهام از شناخت برای دستکاری این مدل استفاده کردند و شبیه‌سازی‌های صوتی را با در نظر گرفتن روش‌های خاص ارتباط صوتی در هر زمینه تولید کردند.

این مدل می‌تواند طیف گسترده‌ای از صداهای محیطی، مانند خش‌خش برگ‌ها، صدای خش‌خش مارها یا آژیر آمبولانس را بازتولید کند. علاوه بر این، این مدل می‌تواند به صورت معکوس عمل کند تا صداهای واقعی را از شبیه‌سازی‌های گفتار انسان پیش‌بینی کند، دقیقاً مانند نحوه‌ای که برخی از سیستم‌های بینایی رایانه‌ای تصاویر با کیفیت بالا را از طرح‌ها بازتولید می‌کنند. به عنوان مثال، این مدل می‌تواند به طور دقیق بین صدای میومیو کردن گربه و صدای خرخر گربه هنگام تقلید توسط انسان تمایز قائل شود.

در آینده، این مدل می‌تواند به رابط‌های کاربری «مبتنی بر شبیه‌سازی» شهودی‌تر برای طراحان صدا، شخصیت‌های هوش مصنوعی انسان‌نماتر در واقعیت مجازی و حتی روش‌هایی برای کمک به دانش‌آموزان در یادگیری زبان‌های خارجی منجر شود.

نویسندگان اصلی این مطالعه - دانشجویان تحصیلات تکمیلی کارتیک چاندرا (MIT CSAIL)، کریما ما و دانشجوی تحقیقاتی متیو کارن - خاطرنشان می‌کنند که محققان گرافیک کامپیوتری مدت‌هاست دریافته‌اند که واقع‌گرایی هدف نهایی بیان بصری نیست. به عنوان مثال، یک نقاشی انتزاعی یا نقاشی کودکانه می‌تواند به اندازه یک عکس گویا باشد.

هنر تقلید صدا در ۳ مرحله

این تیم سه نسخه از این مدل را که به طور فزاینده‌ای پیچیده‌تر می‌شدند، برای مقایسه با شبیه‌سازی‌های صدای انسان توسعه داد. ابتدا، آنها یک مدل پایه ایجاد کردند که صرفاً بر تولید شبیه‌سازی‌هایی متمرکز بود که بیشترین شباهت را به صداهای واقعی داشتند، اما این مدل با رفتار انسان مطابقت نداشت.

در مرحله بعد، تیم مدل دومی به نام مدل «ارتباط» طراحی کرد. به گفته کارن، این مدل عناصر مشخصه صدا را برای شنونده در نظر می‌گیرد. به عنوان مثال، می‌توانید با شبیه‌سازی غرش موتور کشتی، صدای آن را تقلید کنید، زیرا این قابل تشخیص‌ترین ویژگی صدا است، اگرچه مهم‌ترین عنصر نیست (مثلاً مانند صدای شرشر آب). این مدل نسبت به نسخه اول پیشرفت قابل توجهی داشت.

در نهایت، تیم تحقیقاتی لایه دیگری از استدلال را به مدل اضافه کرد. چاندرا توضیح داد: «صداهای شبیه‌سازی شده می‌توانند بسته به میزان تلاشی که صرف آن می‌کنید، متفاوت باشند. ایجاد صداهای دقیق نیاز به زمان و انرژی دارد.» مدل کامل تیم با اجتناب از صداهایی که خیلی سریع، خیلی بلند یا بیش از حد زیر/ بم هستند - عناصری که کمتر در ارتباطات عادی ظاهر می‌شوند - این موضوع را در نظر می‌گیرد. نتیجه، شبیه‌سازی‌های صوتی شبیه‌تر به انسان است که منعکس کننده بسیاری از تصمیماتی است که انسان هنگام تقلید صداهای مشابه می‌گیرد.

به سوی فناوری صوتی رساتر.

این مدل می‌تواند به هنرمندان کمک کند تا صدا را به طور مؤثرتری با سیستم‌های محاسباتی ارتباط برقرار کنند و به فیلمسازان و تولیدکنندگان محتوا در تولید صداهای هوش مصنوعی که بیشتر با زمینه‌های خاص مرتبط هستند، یاری رساند. همچنین می‌تواند به نوازندگان اجازه دهد تا با شبیه‌سازی صدایی که توصیف کتبی آن دشوار است، به سرعت در پایگاه‌های داده صدا جستجو کنند.

در همین حال، تیم تحقیقاتی در حال بررسی کاربردهای این مدل در زمینه‌های دیگر، از جمله توسعه زبان، نحوه یادگیری صحبت کردن نوزادان و رفتار تقلیدی پرندگانی مانند طوطی یا پرندگان آوازخوان است.

با این حال، مدل فعلی هنوز محدودیت‌هایی دارد: با حروف بی‌صدا مانند «z» مشکل دارد که منجر به شبیه‌سازی‌های نادرست صداهایی مانند وزوز می‌شود. علاوه بر این، هنوز نمی‌تواند نحوه تقلید گفتار، موسیقی یا صداهای مختلف تقلید شده در زبان‌های مختلف مانند ضربان قلب توسط انسان را شبیه‌سازی کند.

رابرت هاوکینز، استاد زبان‌شناسی دانشگاه استنفورد، اظهار داشت: «گذار از صدای یک گربه واقعی به کلمه «میو» نشان‌دهنده تعامل پیچیده بین فیزیولوژی، استدلال اجتماعی و ارتباط در تکامل زبان است. این مدل گامی هیجان‌انگیز به جلو در رسمی‌سازی و آزمایش نظریه‌های مربوط به این فرآیندها است.»

(منبع: اخبار MIT)