स्वरयंत्र की कार्यप्रणाली से प्रेरित होकर, एक नया कृत्रिम बुद्धिमत्ता (एआई) मॉडल रोजमर्रा की ध्वनियों के अनुकरण उत्पन्न और समझ सकता है।
यह विधि मनोरंजन और शिक्षा क्षेत्रों के लिए नए ऑडियो इंटरफेस के विकास में सहायक हो सकती है।

अपनी आवाज़ से आवाज़ों की नकल करना, किसी देखी हुई चीज़ को दर्शाने के लिए झटपट चित्र बनाने जैसा है। चित्र बनाने के लिए पेंसिल का इस्तेमाल करने के बजाय, आप अपनी आवाज़ से उस आवाज़ को व्यक्त करते हैं। हालाँकि यह मुश्किल लग सकता है, लेकिन यह एक ऐसी चीज़ है जो हर कोई स्वाभाविक रूप से करता है। इसे अनुभव करने के लिए एम्बुलेंस के सायरन, कौवे की कांव-कांव या घंटी की आवाज़ की नकल करने की कोशिश करें।
हम कैसे संवाद करते हैं, इस बारे में संज्ञानात्मक विज्ञान से प्रेरित होकर, एमआईटी की कंप्यूटर साइंस एंड आर्टिफिशियल इंटेलिजेंस लेबोरेटरी (सीएसएआईएल) के शोधकर्ताओं ने एक एआई प्रणाली विकसित की है जो बिना प्रशिक्षण के और पहले कभी भी किसी मानव-अनुकरणित ध्वनि को "सुने" के बिना मानव जैसी ध्वनि अनुकरण उत्पन्न करने में सक्षम है।
इसे हासिल करने के लिए, शोध दल ने अपने सिस्टम को इस तरह से डिज़ाइन किया कि वह मानव वाणी की नकल करते हुए ध्वनि उत्पन्न और व्याख्या कर सके। उन्होंने मानव स्वर तंत्र का एक मॉडल बनाकर शुरुआत की, जिसमें यह अनुकरण किया गया कि स्वरयंत्र से उत्पन्न कंपन गले, जीभ और होंठों द्वारा कैसे आकार लेते हैं। फिर, उन्होंने संज्ञानात्मक रूप से प्रेरित एआई एल्गोरिदम का उपयोग करके इस मॉडल को संचालित किया, जिससे प्रत्येक संदर्भ में मुखर संचार के विशिष्ट तरीकों को ध्यान में रखते हुए ध्वनि अनुकरण उत्पन्न किए गए।
यह मॉडल पर्यावरण की कई तरह की आवाज़ें उत्पन्न कर सकता है, जैसे पत्तों की सरसराहट, सांपों की फुफकार या एम्बुलेंस का सायरन। इसके अलावा, यह मॉडल मानव भाषण की नकल से वास्तविक ध्वनियों का अनुमान लगाने में भी सक्षम है, ठीक उसी तरह जैसे कुछ कंप्यूटर विज़न सिस्टम रेखाचित्रों से उच्च-गुणवत्ता वाली छवियां बनाते हैं। उदाहरण के लिए, यह मॉडल किसी इंसान द्वारा बिल्ली की म्याऊं और बिल्ली के गुर्राने की आवाज़ की नकल करने पर उनमें सटीक अंतर कर सकता है।
भविष्य में, यह मॉडल साउंड डिज़ाइनरों के लिए अधिक सहज "सिमुलेशन-आधारित" इंटरफेस, वर्चुअल रियलिटी में अधिक मानव-समान एआई पात्रों और यहां तक कि छात्रों को विदेशी भाषाएं सीखने में सहायता करने के तरीकों को जन्म दे सकता है।
इस अध्ययन के प्रमुख लेखक—स्नातकोत्तर छात्र कार्तिक चंद्र (एमआईटी सीएसएआईएल), करिश्मा मा और शोध छात्र मैथ्यू कैरेन—बताते हैं कि कंप्यूटर ग्राफिक्स शोधकर्ताओं ने लंबे समय से यह माना है कि यथार्थवाद दृश्य अभिव्यक्ति का अंतिम लक्ष्य नहीं है। उदाहरण के लिए, एक अमूर्त पेंटिंग या बच्चे की चित्रकारी भी एक तस्वीर जितनी ही अभिव्यंजक हो सकती है।
ध्वनि अनुकरण की कला को 3 चरणों में समझना
टीम ने मानव ध्वनि अनुकरणों से तुलना करने के लिए मॉडल के तीन उत्तरोत्तर परिष्कृत संस्करण विकसित किए। सबसे पहले, उन्होंने एक बुनियादी मॉडल बनाया जो पूरी तरह से वास्तविक ध्वनियों से सबसे अधिक मिलते-जुलते अनुकरण उत्पन्न करने पर केंद्रित था, लेकिन यह मॉडल मानव व्यवहार से मेल नहीं खाता था।
इसके बाद, टीम ने "संचार" मॉडल नामक एक दूसरा मॉडल तैयार किया। कैरेन के अनुसार, यह मॉडल श्रोता के लिए ध्वनि के विशिष्ट तत्वों को ध्यान में रखता है। उदाहरण के लिए, आप जहाज के इंजन की गर्जना की नकल करके जहाज की ध्वनि उत्पन्न कर सकते हैं, क्योंकि यह ध्वनि की सबसे आसानी से पहचानी जाने वाली विशेषता है, हालांकि यह सबसे महत्वपूर्ण तत्व नहीं है (जैसे पानी की लहरों की आवाज़)। यह मॉडल पहले संस्करण की तुलना में एक महत्वपूर्ण सुधार था।
अंत में, शोध दल ने मॉडल में तर्क की एक और परत जोड़ी। चंद्र ने समझाया, “अनुकरणित ध्वनियाँ इस बात पर निर्भर करती हैं कि आप इसमें कितना प्रयास लगाते हैं। सटीक ध्वनियाँ बनाने में समय और ऊर्जा लगती है।” दल के संपूर्ण मॉडल में इस बात का ध्यान रखा गया है कि इसमें बहुत तेज़, बहुत ऊँची या अत्यधिक ऊँची/नीची ध्वनियों को शामिल नहीं किया गया है – ये तत्व सामान्य संचार में कम ही दिखाई देते हैं। इसका परिणाम यह हुआ कि ध्वनि अनुकरण अधिक मानवीय प्रतीत होता है, जो समान ध्वनियों की नकल करते समय मनुष्यों द्वारा लिए गए कई निर्णयों को दर्शाता है।
अधिक अभिव्यंजक ऑडियो तकनीक की ओर।
यह मॉडल कलाकारों को कंप्यूटिंग सिस्टम के साथ ध्वनि का अधिक प्रभावी ढंग से संचार करने में मदद कर सकता है, जिससे फिल्म निर्माताओं और कंटेंट क्रिएटर्स को विशिष्ट संदर्भों के लिए अधिक प्रासंगिक एआई ध्वनियां बनाने में सहायता मिलेगी। यह संगीतकारों को उन ध्वनि का अनुकरण करके ध्वनि डेटाबेस में तेजी से खोज करने की सुविधा भी प्रदान कर सकता है जिनका लिखित रूप से वर्णन करना कठिन है।
इस बीच, शोध दल भाषा विकास, शिशुओं के बोलने सीखने के तरीके और तोते या गीत गाने वाले पक्षियों जैसे पक्षियों के अनुकरण व्यवहार सहित अन्य क्षेत्रों में इस मॉडल के अनुप्रयोगों की खोज कर रहा है।
हालांकि, मौजूदा मॉडल में अभी भी कुछ कमियां हैं: यह "ज़" जैसे व्यंजनों को पहचानने में कठिनाई महसूस करता है, जिससे भिनभिनाहट जैसी ध्वनियों का सटीक अनुकरण नहीं हो पाता। इसके अलावा, यह अभी तक मनुष्यों द्वारा भाषण, संगीत या विभिन्न भाषाओं में नकल की जाने वाली विभिन्न ध्वनियों, जैसे कि दिल की धड़कन, की नकल करने के तरीके को हूबहू नहीं दर्शा सकता।
स्टैनफोर्ड विश्वविद्यालय में भाषाविज्ञान के प्रोफेसर रॉबर्ट हॉकिन्स ने टिप्पणी की: “एक असली बिल्ली की आवाज़ से 'म्याऊँ' शब्द तक का संक्रमण भाषा के विकास में शरीरक्रिया विज्ञान, सामाजिक तर्क और संचार के बीच जटिल अंतर्संबंध को दर्शाता है। यह मॉडल इन प्रक्रियाओं के बारे में सिद्धांतों को औपचारिक रूप देने और उनका परीक्षण करने की दिशा में एक रोमांचक कदम है।”
(स्रोत: एमआईटी न्यूज़)
[विज्ञापन_2]
स्रोत: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html






टिप्पणी (0)