با الهام از مکانیک حنجره، یک مدل جدید هوش مصنوعی (AI) میتواند شبیهسازیهایی از صداهای روزمره را تولید و درک کند.
این روش میتواند از توسعه رابطهای صوتی جدید برای بخشهای سرگرمی و آموزش پشتیبانی کند.

تقلید صداها با صدایتان مانند طراحی سریع یک تصویر برای انتقال چیزی است که دیدهاید. به جای استفاده از مداد برای نشان دادن تصویر، از آواهای خود برای بیان صدا استفاده میکنید. اگرچه این ممکن است دشوار به نظر برسد، اما کاری است که همه به طور طبیعی انجام میدهند. سعی کنید آژیر آمبولانس، قارقار کلاغ یا زنگ را تقلید کنید تا این را تجربه کنید.
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) با الهام از علوم شناختی در مورد نحوه ارتباط ما، یک سیستم هوش مصنوعی توسعه دادهاند که قادر به تولید شبیهسازیهای صوتی شبیه به انسان بدون آموزش و بدون اینکه قبلاً هیچ صدای شبیهسازی شده انسانی را "شنیده" باشد، میباشد.
برای دستیابی به این هدف، تیم تحقیقاتی سیستم خود را برای تولید و تفسیر صدا به روشی که گفتار انسان را تقلید میکند، طراحی کردند. آنها با ساخت مدلی از دستگاه صوتی انسان شروع کردند و نحوه شکلگیری ارتعاشات حنجره توسط گلو، زبان و لبها را شبیهسازی کردند. سپس، آنها از یک الگوریتم هوش مصنوعی با الهام از شناخت برای دستکاری این مدل استفاده کردند و شبیهسازیهای صوتی را با در نظر گرفتن روشهای خاص ارتباط صوتی در هر زمینه تولید کردند.
این مدل میتواند طیف گستردهای از صداهای محیطی، مانند خشخش برگها، صدای خشخش مارها یا آژیر آمبولانس را بازتولید کند. علاوه بر این، این مدل میتواند به صورت معکوس عمل کند تا صداهای واقعی را از شبیهسازیهای گفتار انسان پیشبینی کند، دقیقاً مانند نحوهای که برخی از سیستمهای بینایی رایانهای تصاویر با کیفیت بالا را از طرحها بازتولید میکنند. به عنوان مثال، این مدل میتواند به طور دقیق بین صدای میومیو کردن گربه و صدای خرخر گربه هنگام تقلید توسط انسان تمایز قائل شود.
در آینده، این مدل میتواند به رابطهای کاربری «مبتنی بر شبیهسازی» شهودیتر برای طراحان صدا، شخصیتهای هوش مصنوعی انساننماتر در واقعیت مجازی و حتی روشهایی برای کمک به دانشآموزان در یادگیری زبانهای خارجی منجر شود.
نویسندگان اصلی این مطالعه - دانشجویان تحصیلات تکمیلی کارتیک چاندرا (MIT CSAIL)، کریما ما و دانشجوی تحقیقاتی متیو کارن - خاطرنشان میکنند که محققان گرافیک کامپیوتری مدتهاست دریافتهاند که واقعگرایی هدف نهایی بیان بصری نیست. به عنوان مثال، یک نقاشی انتزاعی یا نقاشی کودکانه میتواند به اندازه یک عکس گویا باشد.
هنر تقلید صدا در ۳ مرحله
این تیم سه نسخه از این مدل را که به طور فزایندهای پیچیدهتر میشدند، برای مقایسه با شبیهسازیهای صدای انسان توسعه داد. ابتدا، آنها یک مدل پایه ایجاد کردند که صرفاً بر تولید شبیهسازیهایی متمرکز بود که بیشترین شباهت را به صداهای واقعی داشتند، اما این مدل با رفتار انسان مطابقت نداشت.
در مرحله بعد، تیم مدل دومی به نام مدل «ارتباط» طراحی کرد. به گفته کارن، این مدل عناصر مشخصه صدا را برای شنونده در نظر میگیرد. به عنوان مثال، میتوانید با شبیهسازی غرش موتور کشتی، صدای آن را تقلید کنید، زیرا این قابل تشخیصترین ویژگی صدا است، اگرچه مهمترین عنصر نیست (مثلاً مانند صدای شرشر آب). این مدل نسبت به نسخه اول پیشرفت قابل توجهی داشت.
در نهایت، تیم تحقیقاتی لایه دیگری از استدلال را به مدل اضافه کرد. چاندرا توضیح داد: «صداهای شبیهسازی شده میتوانند بسته به میزان تلاشی که صرف آن میکنید، متفاوت باشند. ایجاد صداهای دقیق نیاز به زمان و انرژی دارد.» مدل کامل تیم با اجتناب از صداهایی که خیلی سریع، خیلی بلند یا بیش از حد زیر/ بم هستند - عناصری که کمتر در ارتباطات عادی ظاهر میشوند - این موضوع را در نظر میگیرد. نتیجه، شبیهسازیهای صوتی شبیهتر به انسان است که منعکس کننده بسیاری از تصمیماتی است که انسان هنگام تقلید صداهای مشابه میگیرد.
به سوی فناوری صوتی رساتر.
این مدل میتواند به هنرمندان کمک کند تا صدا را به طور مؤثرتری با سیستمهای محاسباتی ارتباط برقرار کنند و به فیلمسازان و تولیدکنندگان محتوا در تولید صداهای هوش مصنوعی که بیشتر با زمینههای خاص مرتبط هستند، یاری رساند. همچنین میتواند به نوازندگان اجازه دهد تا با شبیهسازی صدایی که توصیف کتبی آن دشوار است، به سرعت در پایگاههای داده صدا جستجو کنند.
در همین حال، تیم تحقیقاتی در حال بررسی کاربردهای این مدل در زمینههای دیگر، از جمله توسعه زبان، نحوه یادگیری صحبت کردن نوزادان و رفتار تقلیدی پرندگانی مانند طوطی یا پرندگان آوازخوان است.
با این حال، مدل فعلی هنوز محدودیتهایی دارد: با حروف بیصدا مانند «z» مشکل دارد که منجر به شبیهسازیهای نادرست صداهایی مانند وزوز میشود. علاوه بر این، هنوز نمیتواند نحوه تقلید گفتار، موسیقی یا صداهای مختلف تقلید شده در زبانهای مختلف مانند ضربان قلب توسط انسان را شبیهسازی کند.
رابرت هاوکینز، استاد زبانشناسی دانشگاه استنفورد، اظهار داشت: «گذار از صدای یک گربه واقعی به کلمه «میو» نشاندهنده تعامل پیچیده بین فیزیولوژی، استدلال اجتماعی و ارتباط در تکامل زبان است. این مدل گامی هیجانانگیز به جلو در رسمیسازی و آزمایش نظریههای مربوط به این فرآیندها است.»
(منبع: اخبار MIT)
منبع: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html






نظر (0)