এই পদ্ধতি বিনোদন এবং শিক্ষা খাতের জন্য নতুন অডিও ইন্টারফেস তৈরিতে সহায়তা করতে পারে।

image001.png সম্পর্কে
ছবি: এমআইটি সিএসএআইএল

আপনার কণ্ঠস্বরের সাথে শব্দের অনুকরণ করা আপনার দেখা কিছু বোঝানোর জন্য একটি দ্রুত ছবি আঁকার মতো। ছবিটি চিত্রিত করার জন্য পেন্সিল ব্যবহার করার পরিবর্তে, আপনি শব্দ প্রকাশ করার জন্য আপনার কণ্ঠস্বর ব্যবহার করেন। যদিও এটি কঠিন বলে মনে হতে পারে, এটি এমন কিছু যা সবাই স্বাভাবিকভাবেই করে। এটি অনুভব করার জন্য একটি অ্যাম্বুলেন্স সাইরেন, একটি কাকের ডাক বা একটি ঘণ্টা অনুকরণ করার চেষ্টা করুন।

আমরা কীভাবে যোগাযোগ করি তার জ্ঞানীয় বিজ্ঞান দ্বারা অনুপ্রাণিত হয়ে, MIT-এর কম্পিউটার সায়েন্স অ্যান্ড আর্টিফিশিয়াল ইন্টেলিজেন্স ল্যাবরেটরির (CSAIL) গবেষকরা একটি AI সিস্টেম তৈরি করেছেন যা প্রশিক্ষণ ছাড়াই এবং আগে কখনও কোনও মানুষের অনুকরণীয় শব্দ "শুনেনি" ছাড়াই মানুষের মতো শব্দ সিমুলেশন তৈরি করতে সক্ষম।

এটি অর্জনের জন্য, গবেষণা দলটি তাদের সিস্টেমটি এমনভাবে ডিজাইন করেছে যাতে মানুষের কথার অনুকরণে শব্দ তৈরি এবং ব্যাখ্যা করা যায়। তারা মানুষের কণ্ঠনালীর একটি মডেল তৈরি করে শুরু করেছিল, গলা, জিহ্বা এবং ঠোঁটের মাধ্যমে স্বরযন্ত্র থেকে কম্পন কীভাবে তৈরি হয় তা অনুকরণ করে। তারপর, তারা এই মডেলটি পরিচালনা করার জন্য একটি জ্ঞানীয়ভাবে অনুপ্রাণিত AI অ্যালগরিদম ব্যবহার করেছিল, প্রতিটি প্রসঙ্গে কণ্ঠ্য যোগাযোগের নির্দিষ্ট উপায়গুলি বিবেচনা করে শব্দ সিমুলেশন তৈরি করেছিল।

এই মডেলটি বিভিন্ন ধরণের পরিবেশগত শব্দ পুনরুৎপাদন করতে পারে, যেমন পাতার খসখস শব্দ, সাপের হিস হিস শব্দ, অথবা অ্যাম্বুলেন্সের সাইরেনের শব্দ। অধিকন্তু, মডেলটি মানুষের বক্তৃতা সিমুলেশন থেকে বাস্তব শব্দ পূর্বাভাস দেওয়ার জন্য বিপরীতভাবে কাজ করতে পারে, ঠিক যেমন কিছু কম্পিউটার ভিশন সিস্টেম স্কেচ থেকে উচ্চমানের ছবি পুনরুৎপাদন করে। উদাহরণস্বরূপ, মডেলটি একটি বিড়ালের মিউ করার শব্দ এবং একটি বিড়ালের ঘড়ঘড় শব্দের মধ্যে সঠিকভাবে পার্থক্য করতে পারে যখন একজন মানুষ এটি অনুকরণ করে।

ভবিষ্যতে, এই মডেলটি সাউন্ড ডিজাইনারদের জন্য আরও স্বজ্ঞাত "সিমুলেশন-ভিত্তিক" ইন্টারফেস, ভার্চুয়াল রিয়েলিটিতে আরও মানুষের মতো এআই চরিত্র এবং এমনকি বিদেশী ভাষা শেখার ক্ষেত্রে শিক্ষার্থীদের সহায়তা করার পদ্ধতি তৈরি করতে পারে।

গবেষণার প্রধান লেখক - স্নাতকোত্তর শিক্ষার্থী কার্তিক চন্দ্র (এমআইটি সিএসএআইএল), করিমা মা এবং গবেষণা শিক্ষার্থী ম্যাথিউ ক্যারেন - উল্লেখ করেছেন যে কম্পিউটার গ্রাফিক্স গবেষকরা দীর্ঘদিন ধরেই স্বীকার করেছেন যে বাস্তববাদ দৃশ্যমান প্রকাশের চূড়ান্ত লক্ষ্য নয়। উদাহরণস্বরূপ, একটি বিমূর্ত চিত্রকর্ম বা একটি শিশুর ডুডল একটি ছবির মতোই অভিব্যক্তিপূর্ণ হতে পারে।

শব্দ অনুকরণের শিল্প ৩টি ধাপ অতিক্রম করে

দলটি মানুষের শব্দ সিমুলেশনের সাথে তুলনা করার জন্য মডেলটির তিনটি ক্রমবর্ধমান পরিশীলিত সংস্করণ তৈরি করেছে। প্রথমত, তারা একটি মৌলিক মডেল তৈরি করেছিল যা কেবলমাত্র এমন সিমুলেশন তৈরির উপর দৃষ্টি নিবদ্ধ করেছিল যা বাস্তব শব্দের সাথে সবচেয়ে ঘনিষ্ঠভাবে সাদৃশ্যপূর্ণ, কিন্তু এই মডেলটি মানুষের আচরণের সাথে মেলেনি।

এরপর, দলটি "যোগাযোগ" মডেল নামে একটি দ্বিতীয় মডেল তৈরি করে। ক্যারেনের মতে, এই মডেলটি শ্রোতার জন্য শব্দের বৈশিষ্ট্যগত উপাদানগুলি বিবেচনা করে। উদাহরণস্বরূপ, আপনি একটি জাহাজের ইঞ্জিনের গর্জন অনুকরণ করে তার শব্দ অনুকরণ করতে পারেন, কারণ এটি শব্দের সবচেয়ে স্বীকৃত বৈশিষ্ট্য, যদিও এটি সবচেয়ে গুরুত্বপূর্ণ উপাদান নয় (যেমন, জলের ধাক্কার শব্দ)। এই মডেলটি প্রথম সংস্করণের তুলনায় উল্লেখযোগ্য উন্নতি ছিল।

অবশেষে, গবেষণা দলটি মডেলটিতে যুক্তির আরেকটি স্তর যুক্ত করেছে। চন্দ্র ব্যাখ্যা করেছেন, "আপনি কতটা প্রচেষ্টা করেছেন তার উপর নির্ভর করে সিমুলেটেড শব্দগুলি পরিবর্তিত হতে পারে। সঠিক শব্দ তৈরি করতে সময় এবং শক্তি প্রয়োজন।" দলের সম্পূর্ণ মডেলটি এর জন্য দায়ী, খুব দ্রুত, খুব জোরে, বা অত্যধিক উচ্চ/নিম্ন শব্দগুলি এড়িয়ে চলা - সাধারণ যোগাযোগে উপস্থিত হওয়ার সম্ভাবনা কম - এমন উপাদানগুলি। ফলাফলটি মানুষের মতো শব্দ সিমুলেশন তৈরি করে, যা একই ধরণের শব্দ অনুকরণ করার সময় মানুষের নেওয়া অনেক সিদ্ধান্তকে প্রতিফলিত করে।

আরও অভিব্যক্তিপূর্ণ অডিও প্রযুক্তির দিকে।

এই মডেলটি শিল্পীদের কম্পিউটিং সিস্টেমের সাথে আরও কার্যকরভাবে শব্দ যোগাযোগ করতে সাহায্য করতে পারে, চলচ্চিত্র নির্মাতাদের এবং বিষয়বস্তু নির্মাতাদের নির্দিষ্ট প্রসঙ্গে আরও প্রাসঙ্গিক AI শব্দ তৈরিতে সহায়তা করতে পারে। এটি সঙ্গীতজ্ঞদের এমন একটি শব্দ অনুকরণ করে দ্রুত শব্দ ডাটাবেস অনুসন্ধান করার অনুমতি দিতে পারে যা লিখিতভাবে বর্ণনা করা কঠিন।

ইতিমধ্যে, গবেষণা দলটি ভাষা বিকাশ, শিশুরা কীভাবে কথা বলতে শেখে এবং তোতাপাখি বা গানের পাখির মতো পাখির অনুকরণমূলক আচরণ সহ অন্যান্য ক্ষেত্রে এই মডেলের প্রয়োগগুলি অন্বেষণ করছে।

তবে, বর্তমান মডেলটির এখনও কিছু সীমাবদ্ধতা রয়েছে: এটি "z" এর মতো ব্যঞ্জনবর্ণের সাথে লড়াই করে, যার ফলে গুঞ্জনের মতো শব্দের ভুল সিমুলেশন তৈরি হয়। উপরন্তু, এটি এখনও মানুষ কীভাবে বক্তৃতা, সঙ্গীত , অথবা বিভিন্ন ভাষায় অনুকরণ করা বিভিন্ন শব্দ, যেমন হৃদস্পন্দন, অনুকরণ করে তা অনুকরণ করতে পারে না।

স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের ভাষাবিজ্ঞানের অধ্যাপক রবার্ট হকিন্স মন্তব্য করেছেন: "একটি বাস্তব বিড়ালের শব্দ থেকে 'মিয়াও' শব্দে রূপান্তর ভাষার বিবর্তনে শারীরবিদ্যা, সামাজিক যুক্তি এবং যোগাযোগের মধ্যে জটিল পারস্পরিক সম্পর্ক প্রদর্শন করে। এই মডেলটি এই প্রক্রিয়াগুলি সম্পর্কে তত্ত্বগুলিকে আনুষ্ঠানিকীকরণ এবং পরীক্ষা করার ক্ষেত্রে একটি উত্তেজনাপূর্ণ পদক্ষেপ।"

(সূত্র: এমআইটি নিউজ)