larynx کے میکانکس سے متاثر ہو کر، ایک نیا مصنوعی ذہانت (AI) ماڈل روزمرہ کی آوازوں کی نقل تیار اور سمجھ سکتا ہے۔
یہ طریقہ تفریحی اور تعلیم کے شعبوں کے لیے نئے آڈیو انٹرفیس کی ترقی میں معاون ثابت ہو سکتا ہے۔

اپنی آواز کے ساتھ آوازوں کی نقل کرنا ایسا ہے جیسے آپ نے جو کچھ دیکھا ہو اسے پہنچانے کے لیے ایک تیز تصویر بنانا۔ تصویر کو واضح کرنے کے لیے پنسل استعمال کرنے کے بجائے، آپ آواز کے اظہار کے لیے اپنی آواز کا استعمال کرتے ہیں۔ اگرچہ یہ مشکل لگ سکتا ہے، یہ وہ چیز ہے جو ہر کوئی قدرتی طور پر کرتا ہے۔ اس کا تجربہ کرنے کے لیے ایمبولینس کے سائرن، کوے کی آواز یا گھنٹی کی نقل کرنے کی کوشش کریں۔
ہم کس طرح بات چیت کرتے ہیں اس پر علمی سائنس سے متاثر ہو کر، MIT کی کمپیوٹر سائنس اور مصنوعی ذہانت کی لیبارٹری (CSAIL) کے محققین نے ایک ایسا AI نظام تیار کیا ہے جو بغیر تربیت کے اور بغیر کسی انسانی نقلی آواز کے "سنے" کے انسان جیسی آواز پیدا کرنے کے قابل ہے۔
اس کو حاصل کرنے کے لیے، تحقیقی ٹیم نے اپنے نظام کو آواز پیدا کرنے اور اس کی تشریح کرنے کے لیے اس طرح ڈیزائن کیا ہے کہ انسانی تقریر کی نقل ہو۔ انہوں نے انسانی آواز کی نالی کا ایک نمونہ بنا کر شروع کیا، اس کی تقلید کرتے ہوئے کہ گلے، زبان اور ہونٹوں کی شکل میں larynx کے کمپن کیسے بنتے ہیں۔ اس کے بعد، انہوں نے اس ماڈل میں ہیرا پھیری کرنے کے لیے علمی طور پر الہامی AI الگورتھم کا استعمال کیا، ہر سیاق و سباق میں مخر مواصلات کے مخصوص طریقوں پر غور کرتے ہوئے صوتی نقالی پیدا کی۔
یہ ماڈل ماحولیاتی آوازوں کی وسیع اقسام کو دوبارہ پیدا کر سکتا ہے، جیسے کہ پتوں کا سرسراہٹ، سانپوں کی سسکیاں، یا ایمبولینس کا سائرن۔ مزید برآں، ماڈل انسانی اسپیچ سمیلیشنز سے حقیقی آوازوں کی پیش گوئی کرنے کے لیے الٹا کام کر سکتا ہے، جیسا کہ کچھ کمپیوٹر ویژن سسٹم خاکوں سے اعلیٰ معیار کی تصاویر کو دوبارہ تیار کرتے ہیں۔ مثال کے طور پر، ماڈل بلی کے میان کرنے کی آواز اور انسان کے ذریعے نقل کیے جانے پر بلی کے پینے کی آواز کے درمیان درست طریقے سے فرق کر سکتا ہے۔
مستقبل میں، یہ ماڈل ساؤنڈ ڈیزائنرز کے لیے زیادہ بدیہی "تقلی پر مبنی" انٹرفیس، ورچوئل رئیلٹی میں زیادہ انسان نما AI کرداروں، اور یہاں تک کہ طالب علموں کو غیر ملکی زبانیں سیکھنے میں مدد کرنے کے طریقوں کا باعث بن سکتا ہے۔
مطالعہ کے سرکردہ مصنفین — گریجویٹ طلباء کارتک چندرا (MIT CSAIL)، کریمہ ما، اور تحقیقی طالب علم میتھیو کیرن — نوٹ کریں کہ کمپیوٹر گرافکس کے محققین نے طویل عرصے سے تسلیم کیا ہے کہ حقیقت پسندی بصری اظہار کا حتمی مقصد نہیں ہے۔ مثال کے طور پر، ایک تجریدی پینٹنگ یا بچوں کا ڈوڈل تصویر کی طرح ہی تاثراتی ہو سکتا ہے۔
3 مراحل کے ذریعے آواز کی نقل کرنے کا فن
ٹیم نے انسانی آواز کے نقوش کے ساتھ موازنہ کرنے کے لیے ماڈل کے تین تیزی سے جدید ترین ورژن تیار کیے ہیں۔ سب سے پہلے، انہوں نے ایک بنیادی ماڈل بنایا جس نے مکمل طور پر ایسے نقوش پیدا کرنے پر توجہ مرکوز کی جو حقیقی آوازوں سے بہت زیادہ مشابہت رکھتے تھے، لیکن یہ ماڈل انسانی رویے سے میل نہیں کھاتا تھا۔
اس کے بعد، ٹیم نے ایک دوسرا ماڈل ڈیزائن کیا جسے "مواصلات" ماڈل کہا جاتا ہے۔ کیرن کے مطابق، یہ ماڈل سننے والوں کے لیے آواز کے خصوصیت کے عناصر پر غور کرتا ہے۔ مثال کے طور پر، آپ جہاز کے انجن کی دہاڑ کی نقل کر کے اس کی آواز کی نقل کر سکتے ہیں، کیونکہ یہ آواز کی سب سے زیادہ پہچانی جانے والی خصوصیت ہے، حالانکہ یہ سب سے اہم عنصر نہیں ہے (مثال کے طور پر، پانی کے گرنے کی آواز)۔ یہ ماڈل پہلے ورژن کے مقابلے میں نمایاں بہتری تھی۔
آخر میں، تحقیقی ٹیم نے ماڈل میں استدلال کی ایک اور پرت شامل کی۔ چندرا نے وضاحت کی، "نقلی آوازیں اس بات پر منحصر ہوتی ہیں کہ آپ اس میں کتنی محنت کرتے ہیں۔ درست آوازیں بنانے کے لیے وقت اور توانائی درکار ہوتی ہے۔" ٹیم کا مکمل ماڈل اس کے لیے ایسی آوازوں سے گریز کرتا ہے جو بہت تیز، بہت اونچی، یا ضرورت سے زیادہ اونچی/نچلی ہوتی ہیں - ایسے عناصر جن کے عام مواصلات میں ظاہر ہونے کا امکان کم ہوتا ہے۔ اس کا نتیجہ زیادہ انسان نما صوتی نقالی ہے، جو اسی طرح کی آوازوں کی نقل کرتے وقت انسانوں کے بہت سے فیصلوں کی عکاسی کرتا ہے۔
مزید اظہار آمیز آڈیو ٹیکنالوجی کی طرف۔
یہ ماڈل فنکاروں کو کمپیوٹنگ سسٹمز کے ساتھ آواز کو زیادہ مؤثر طریقے سے بات چیت کرنے میں مدد دے سکتا ہے، فلم سازوں اور مواد کے تخلیق کاروں کو AI آوازیں تیار کرنے میں مدد دے سکتا ہے جو مخصوص سیاق و سباق سے زیادہ متعلقہ ہیں۔ یہ موسیقاروں کو آواز کے ڈیٹا بیس کو تیزی سے تلاش کرنے کی بھی اجازت دے سکتا ہے جس کی آواز کو تحریر میں بیان کرنا مشکل ہے۔
دریں اثنا، تحقیقی ٹیم دیگر شعبوں میں اس ماڈل کی ایپلی کیشنز کی تلاش کر رہی ہے، بشمول زبان کی نشوونما، شیر خوار بچے کس طرح بولنا سیکھتے ہیں، اور پرندوں جیسے طوطے یا سونگ برڈز کی نقل کرنے والے برتاؤ۔
تاہم، موجودہ ماڈل میں اب بھی کچھ حدود ہیں: یہ "z" جیسے حرفوں کے ساتھ جدوجہد کرتا ہے، جس کی وجہ سے گونجنے جیسی آوازوں کی غلط نقل ہوتی ہے۔ مزید برآں، یہ ابھی تک نقل نہیں کر سکتا کہ انسان تقریر، موسیقی ، یا مختلف زبانوں، جیسے دل کی دھڑکنوں میں نقل کی جانے والی مختلف آوازوں کی نقل کیسے کرتا ہے۔
اسٹینفورڈ یونیورسٹی میں لسانیات کے پروفیسر رابرٹ ہاکنز نے تبصرہ کیا: "ایک حقیقی بلی کی آواز سے لفظ 'میاؤ' میں منتقلی زبان کے ارتقاء میں فزیالوجی، سماجی استدلال، اور مواصلات کے درمیان پیچیدہ عمل کو ظاہر کرتی ہے۔
(ماخذ: ایم آئی ٹی نیوز)
ماخذ: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html






تبصرہ (0)