ويمكن أن يساعد هذا النهج في تطوير واجهات صوتية جديدة لقطاعي الترفيه والتعليم .

صورة001.png
الصورة: معهد ماساتشوستس للتكنولوجيا CSAIL

تقليد الأصوات بصوتك أشبه برسم صورة سريعة لإيصال ما تراه. بدلًا من استخدام قلم رصاص لتوضيح الصورة، استخدم جهازك الصوتي لتمثيل الصوت. قد يبدو هذا صعبًا، ولكنه أمر طبيعي. جرب تقليد صفارة سيارة إسعاف، أو صيحة غراب، أو جرس لتجربة ذلك.

مستوحى من العلوم المعرفية حول كيفية تواصلنا، قام باحثون في مختبر علوم الكمبيوتر والذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا (CSAIL) بتطوير نظام ذكاء اصطناعي قادر على توليد محاكاة للأصوات تشبه الإنسان دون أي تدريب ودون "سماع" أي أصوات محاكاة للإنسان من قبل.

لتحقيق ذلك، صمم الفريق نظامهم لإنتاج وتفسير الأصوات بنفس طريقة البشر. بدأوا ببناء نموذج للمسالك الصوتية البشرية، مُحاكيين كيفية تشكيل اهتزازات الحنجرة بواسطة الحلق واللسان والشفتين. ثم استخدموا خوارزمية ذكاء اصطناعي مستوحاة من الإدراك الحسي لتشغيل النموذج، مُولّدين محاكاة صوتية مع مراعاة الطرق الفريدة لتوصيل الأصوات في كل سياق.

يستطيع النموذج إعادة إنتاج مجموعة واسعة من الأصوات البيئية، مثل حفيف أوراق الشجر، وفحيح الثعابين، وصافرة سيارة الإسعاف. علاوة على ذلك، يعمل النموذج بشكل عكسي للتنبؤ بالأصوات الحقيقية من محاكاة الكلام البشري، تمامًا كما تستطيع بعض أنظمة الرؤية الحاسوبية إعادة إنتاج صور عالية الجودة من الرسومات. على سبيل المثال، يستطيع النموذج التمييز بدقة بين مواء القطة وخرخرتها عند تقليدها من قِبل الإنسان.

في المستقبل، قد يؤدي هذا النموذج إلى ظهور واجهات "محاكاة" أكثر بديهية لمصممي الصوت، وشخصيات ذكاء اصطناعي أكثر شبهاً بالإنسان في الواقع الافتراضي، وحتى طرق لمساعدة الطلاب على تعلم اللغات الأجنبية.

يشير المؤلفون الرئيسيون للدراسة - طلاب الدراسات العليا في معهد ماساتشوستس للتكنولوجيا (MIT) كارتيك تشاندرا وكريمة ما، وطالب الدراسات العليا ماثيو كارين - إلى أن باحثي الرسومات الحاسوبية أدركوا منذ زمن طويل أن الواقعية ليست الهدف النهائي للتعبير البصري. على سبيل المثال، يمكن للوحة تجريدية أو رسمة طفل أن تكون معبرة تمامًا كالصورة الفوتوغرافية.

فن محاكاة الصوت في 3 مراحل

طوّر الفريق ثلاث نسخ متطورة من النموذج لمقارنتها بمحاكاة الصوت البشري. أولًا، ابتكروا نموذجًا أساسيًا ركّز فقط على توليد محاكاة أقرب ما يمكن إلى الأصوات الحقيقية، لكن هذا النموذج لم يُطابق السلوك البشري.

ثم صمم الفريق نموذجًا ثانيًا يُسمى نموذج "التواصل". ووفقًا لكارين، يأخذ هذا النموذج في الاعتبار عناصر الصوت المميزة للمستمع. على سبيل المثال، يمكنك تقليد صوت سفينة بمحاكاة هدير محركها، لأنه السمة الأبرز للصوت، مع أنه ليس العنصر الأعلى صوتًا (مثل صوت خرير الماء). وقد تحسن هذا النموذج بشكل ملحوظ مقارنةً بالنسخة الأولى.

أخيرًا، أضاف الفريق مستوىً من التفكير المنطقي إلى النموذج. يوضح تشاندرا: "قد تختلف الأصوات المُحاكية تبعًا لمقدار الجهد المبذول فيها. يتطلب إنتاج أصوات دقيقة وقتًا وجهدًا". يأخذ النموذج النهائي للفريق هذا في الاعتبار من خلال تجنب الأصوات السريعة جدًا، أو العالية جدًا، أو المرتفعة/المنخفضة جدًا - وهي عناصر يقل احتمال حدوثها في الكلام العادي. والنتيجة هي محاكاة أقرب إلى محاكاة الإنسان، تعكس العديد من القرارات التي يتخذها البشر عند تقليد أصوات مماثلة.

نحو تكنولوجيا صوتية أكثر تعبيرًا

يمكن أن يُساعد هذا النموذج الفنانين على تحسين تواصل الأصوات مع الأنظمة الحاسوبية، مما يُمكّن صانعي الأفلام ومُنشئي المحتوى من ابتكار أصوات ذكاء اصطناعي أكثر ملاءمة للسياق. كما يُمكنه أن يُتيح للموسيقيين البحث بسرعة في قواعد بيانات الأصوات من خلال محاكاة ضوضاء يصعب وصفها نصيًا.

وفي الوقت نفسه، يبحث الفريق في تطبيقات النموذج في مجالات أخرى، بما في ذلك تطوير اللغة، وكيفية تعلم الأطفال التحدث، وسلوك التقليد لدى الطيور مثل الببغاوات والطيور المغردة.

مع ذلك، لا يزال النموذج الحالي يعاني من بعض القيود: فهو يواجه صعوبة في التعامل مع الحروف الساكنة مثل "z"، مما يؤدي إلى محاكاة غير دقيقة لأصوات مثل طنين النحلة. إضافةً إلى ذلك، لا يستطيع النموذج حتى الآن محاكاة كيفية تقليد البشر للكلام أو الموسيقى أو الأصوات التي تُقلّد بشكل مختلف في اللغات المختلفة، مثل دقات القلب.

قال روبرت هوكينز، أستاذ اللغويات بجامعة ستانفورد: "يُظهر الانتقال من صوت قطة حقيقية إلى كلمة "مواء" التفاعل المعقد بين علم وظائف الأعضاء، والتفكير الاجتماعي، والتواصل في تطور اللغة". وأضاف: "يُمثل هذا النموذج خطوةً مهمةً نحو صياغة واختبار النظريات المتعلقة بهذه العمليات".

(المصدر: أخبار معهد ماساتشوستس للتكنولوجيا)