تعليم الذكاء الاصطناعي التعبير عن الصوت

استلهاماً من آليات الحنجرة، يمكن لنموذج جديد للذكاء الاصطناعي توليد وفهم محاكاة الأصوات اليومية.

يمكن لهذه الطريقة أن تدعم تطوير واجهات صوتية جديدة لقطاعي الترفيه والتعليم .

صورة: مختبر علوم الحاسوب والذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا

إن تقليد الأصوات بصوتك أشبه برسم صورة سريعة للتعبير عن شيء رأيته. فبدلاً من استخدام قلم رصاص لرسم الصورة، تستخدم نبرة صوتك للتعبير عن الصوت. قد يبدو هذا صعباً، لكنه أمر طبيعي يفعله الجميع. جرب تقليد صفارة سيارة إسعاف، أو نعيق غراب، أو رنين جرس لتختبر ذلك.

استلهاماً من العلوم المعرفية حول كيفية تواصلنا، قام باحثون في مختبر علوم الحاسوب والذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا (CSAIL) بتطوير نظام ذكاء اصطناعي قادر على توليد محاكاة صوتية شبيهة بالصوت البشري دون تدريب ودون أن يكون قد "سمع" أي أصوات محاكاة بشرية من قبل.

لتحقيق ذلك، صمّم فريق البحث نظامهم لإنتاج الصوت وتفسيره بطريقة تحاكي الكلام البشري. بدأوا ببناء نموذج للجهاز الصوتي البشري، يحاكي كيفية تشكّل الاهتزازات الصادرة من الحنجرة بواسطة الحلق واللسان والشفتين. ثم استخدموا خوارزمية ذكاء اصطناعي مستوحاة من الإدراك لمعالجة هذا النموذج، مُولّدين محاكاة صوتية مع مراعاة أساليب التواصل الصوتي المحددة في كل سياق.

يستطيع هذا النموذج محاكاة مجموعة واسعة من الأصوات البيئية، مثل حفيف الأوراق، أو فحيح الأفاعي، أو صفارة سيارة الإسعاف. علاوة على ذلك، يمكن للنموذج العمل عكسيًا للتنبؤ بأصوات حقيقية من خلال محاكاة الكلام البشري، تمامًا كما تفعل بعض أنظمة رؤية الحاسوب في إعادة إنتاج صور عالية الجودة من الرسومات التخطيطية. على سبيل المثال، يستطيع النموذج التمييز بدقة بين صوت مواء القطة وصوت خرخرتها عند تقليدهما من قِبل الإنسان.

في المستقبل، يمكن أن يؤدي هذا النموذج إلى واجهات "قائمة على المحاكاة" أكثر سهولة في الاستخدام لمصممي الصوت، وشخصيات ذكاء اصطناعي أكثر شبهاً بالبشر في الواقع الافتراضي، وحتى طرق لمساعدة الطلاب في تعلم اللغات الأجنبية.

يشير المؤلفون الرئيسيون للدراسة - وهم طلاب الدراسات العليا كارتيك تشاندرا (مختبر علوم الحاسوب والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا)، وكريمة ما، وطالب البحث ماثيو كارين - إلى أن باحثي رسومات الحاسوب لطالما أدركوا أن الواقعية ليست الهدف النهائي للتعبير البصري. فعلى سبيل المثال، يمكن أن تكون اللوحة التجريدية أو رسومات الأطفال البسيطة معبرة تمامًا مثل الصورة الفوتوغرافية.

فن تقليد الصوت عبر 3 مراحل

قام الفريق بتطوير ثلاثة نماذج متطورة بشكل متزايد لمقارنتها بمحاكاة الصوت البشري. في البداية، أنشأوا نموذجًا أساسيًا يركز فقط على إنتاج محاكاة تشبه الأصوات الحقيقية إلى حد كبير، لكن هذا النموذج لم يتطابق مع السلوك البشري.

بعد ذلك، صمّم الفريق نموذجًا ثانيًا يُسمى نموذج "التواصل". ووفقًا لكارين، يُراعي هذا النموذج العناصر الصوتية المميزة للمستمع. فعلى سبيل المثال، يُمكن محاكاة صوت السفينة عن طريق محاكاة هدير محركها، إذ يُعدّ هذا الصوت السمة الأكثر وضوحًا، على الرغم من أنه ليس العنصر الأهم (مثل صوت تلاطم الأمواج، على سبيل المثال). وقد مثّل هذا النموذج تحسينًا ملحوظًا عن النسخة الأولى.

أخيرًا، أضاف فريق البحث بُعدًا آخر من التحليل إلى النموذج. أوضح تشاندرا قائلًا: "تختلف الأصوات المُحاكاة تبعًا للجهد المبذول فيها. يتطلب إنتاج أصوات دقيقة وقتًا وجهدًا". يُراعي النموذج الكامل للفريق هذا الأمر بتجنب الأصوات السريعة جدًا، أو العالية جدًا، أو ذات الترددات العالية/المنخفضة بشكل مفرط - وهي عناصر أقل احتمالًا للظهور في التواصل الطبيعي. والنتيجة هي محاكاة صوتية أقرب إلى الصوت البشري، تعكس العديد من القرارات التي يتخذها البشر عند تقليد أصوات مماثلة.

نحو تقنية صوتية أكثر تعبيراً.

قد يُساعد هذا النموذج الفنانين على التواصل الصوتي مع الأنظمة الحاسوبية بشكل أكثر فعالية، مما يُسهم في مساعدة صانعي الأفلام ومنتجي المحتوى على إنتاج أصوات ذكاء اصطناعي أكثر ملاءمةً لسياقات محددة. كما يُمكنه أن يُتيح للموسيقيين البحث بسرعة في قواعد بيانات الصوت من خلال محاكاة صوت يصعب وصفه كتابيًا.

وفي الوقت نفسه، يستكشف فريق البحث تطبيقات هذا النموذج في مجالات أخرى، بما في ذلك تنمية اللغة، وكيفية تعلم الأطفال الرضع التحدث، وسلوك التقليد لدى الطيور مثل الببغاوات أو الطيور المغردة.

مع ذلك، لا يزال النموذج الحالي يعاني من بعض القيود: فهو يواجه صعوبة في التعامل مع الحروف الساكنة مثل حرف "ز"، مما يؤدي إلى محاكاة غير دقيقة لأصوات مثل الطنين. إضافةً إلى ذلك، لا يستطيع النموذج حتى الآن محاكاة كيفية تقليد البشر للكلام أو الموسيقى ، أو الأصوات المختلفة التي تُقلّد في لغات متعددة، مثل دقات القلب.

علّق أستاذ اللغويات روبرت هوكينز في جامعة ستانفورد قائلاً: "إنّ الانتقال من صوت قطة حقيقية إلى كلمة 'مواء' يُظهر التفاعل المعقد بين علم وظائف الأعضاء، والتفكير الاجتماعي، والتواصل في تطور اللغة. ويُمثّل هذا النموذج خطوةً مثيرةً إلى الأمام في صياغة واختبار النظريات المتعلقة بهذه العمليات."

(المصدر: أخبار معهد ماساتشوستس للتكنولوجيا)

المصدر: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html