ভিয়েতনামী ভাষা ও বক্তৃতা প্রক্রিয়াকরণ (VLSP) প্রতিযোগিতাটি ভিয়েতনাম তথ্য প্রযুক্তি সমিতির একটি শাখা VLSP ক্লাব দ্বারা আয়োজিত ভিয়েতনামী ভাষা ও বক্তৃতা প্রক্রিয়াকরণের উপর বার্ষিক আন্তর্জাতিক সম্মেলনের অংশ। VLSP 2023 বক্তৃতা এবং পাঠ্য প্রক্রিয়াকরণের উপর 10টি প্রতিযোগিতার আয়োজন করে, যা শীর্ষস্থানীয় গবেষক, বিশেষজ্ঞ এবং প্রযুক্তি উন্নয়ন ইউনিটগুলিকে একত্রিত করে।
যদিও এটি চতুর্থবারের মতো ভিয়েটেল এআই প্রতিযোগিতায় অংশগ্রহণ করেছিল এবং এর আগে তিনবার জিতেছিল, তবুও প্রতিযোগিতার বিভাগের কাঠামোর পরিবর্তনের কারণে ভিয়েটেল ইঞ্জিনিয়াররা অনেক সমস্যার সম্মুখীন হয়েছিল।
বিশেষ করে, গত বছরের তুলনায়, এ বছর স্পিচ রিকগনিশন এবং ইমোশন রিকগনিশন বিভাগগুলিকে এক বিভাগে একত্রিত করা হয়েছে। বাক্যের টেক্সট এবং আবেগ উভয়ের স্বীকৃতি নিশ্চিত করার জন্য দলগুলিকে একই সাথে দুটি সমস্যা সমাধান করতে হবে, কাজের চাপ এবং অসুবিধা উভয়ই দ্বিগুণ হয়েছে।
নিম্ন মানের বা উচ্চ মানের, প্রতিটি ডেটা ব্যবহার করুন
কেবল বিভাগগুলির কাঠামো পরিবর্তন করা নয়, এই বছরের পরীক্ষায় সীমিত ডেটা শর্তাবলী সহ স্ক্র্যাচ থেকে মডেল তৈরির উপরও জোর দেওয়া হয়েছে, যার মধ্যে রয়েছে কাঁচা, লেবেলবিহীন এবং নিম্নমানের ডেটা। পরীক্ষায় বিভিন্ন গুণমান এবং ফর্ম সহ 4 টি গ্রুপের ডেটা সরবরাহ করা হয়। এমন ডেটা রয়েছে যার মধ্যে কেবল লেবেলবিহীন অডিও, কেবলমাত্র অডিও এবং পাঠ্য অন্তর্ভুক্ত ডেটা, আবেগ এবং অডিও অন্তর্ভুক্ত ডেটা, উচ্চমানের, স্ট্যান্ডার্ড লেবেল এবং আবেগ এবং অডিও অন্তর্ভুক্ত ডেটা, নিম্নমানের। প্রতিটি ডেটাসেট প্রতিটি উদ্দেশ্য এবং পরীক্ষার বিভাগ পূরণের জন্য স্পষ্টভাবে সংজ্ঞায়িত করা হয়েছে, সমস্ত ডেটাসেটে মোট 300 ঘন্টারও বেশি সময় ব্যয় করা হয়। স্পিচ রিকগনিশন প্রশিক্ষণের জন্য স্ট্যান্ডার্ড ডেটাসেটের তুলনায় এটি বেশ সামান্য সংখ্যা, যার জন্য সাধারণত 1,000-2,000 ঘন্টা বা তার বেশি সময় প্রয়োজন হয়।
প্রতিটি দলের কাছে তাদের কাজ শেষ করে জমা দেওয়ার জন্য ২ মাসেরও কম সময় ছিল, কিন্তু বাস্তবে, সম্পদের অভাবে সমাধান অনুসন্ধানে ব্যয় করা প্রকৃত সময় অনেক কম ছিল।
"এই বছর, ভিয়েটেল এআই নতুন প্রযুক্তি গবেষণার পাশাপাশি পণ্য উন্নয়নের জন্য প্রচুর কম্পিউটিং অবকাঠামোগত সংস্থান নিবেদিত করেছে, যেখানে স্পিচ রিকগনিশন এমন একটি প্রযুক্তি যার জন্য খুব বড় হার্ডওয়্যার সংস্থান প্রয়োজন," মিঃ ডাং দিন সন - কৃত্রিম বুদ্ধিমত্তা প্রকৌশলী, ভার্চুয়াল সহকারী প্ল্যাটফর্ম, ভিয়েটেল এআই শেয়ার করেছেন।
তথ্যের পরিমাণ এবং গুণমানের নিম্নমানের পরিস্থিতির মুখোমুখি হয়ে, গবেষণা দলটি তাৎক্ষণিকভাবে "নিম্ন বা উচ্চ মানের নির্বিশেষে সমস্ত তথ্য ব্যবহার করতে হবে" এর দৃষ্টিভঙ্গি নির্ধারণ করে। এটি করার জন্য, সমস্ত তথ্য প্রক্রিয়াকরণের জন্য একটি প্রশিক্ষণ চক্র তৈরি করা প্রয়োজন এবং অনেক মডেলের পরিবর্তে কেবল একটি মডেল ব্যবহার করে বিভিন্ন সমস্যা সমাধান করা প্রয়োজন।
প্রযুক্তিতে অগ্রণী দক্ষতার ফলাফল
তথ্যের অভাব এবং সম্পদের অভাব উভয়ের প্রেক্ষাপটে, গবেষণা দলটি একটি সহজ, বিশাল নয়, কিন্তু গুরুত্বপূর্ণভাবে, ক্ষুদ্রতম বিশদে সূক্ষ্মভাবে সুরক্ষিত প্রক্রিয়া তৈরি করার সিদ্ধান্ত নিয়েছে।
ভিয়েটেল এআই ইঞ্জিনিয়াররা বিশ্বজুড়ে শীর্ষস্থানীয় সম্মেলন এবং জার্নাল থেকে প্রাপ্ত সর্বশেষ গবেষণা সাবধানতার সাথে অধ্যয়ন করে একটি পদ্ধতি খুঁজে বের করেছেন। কার্যকর মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য ডেটা প্রক্রিয়াকরণ পদ্ধতির সাথে মিলিত হয়ে, গবেষণা দল সমস্ত উপলব্ধ ডেটা প্রক্রিয়া করার জন্য একটি প্রশিক্ষণ চক্র তৈরি করেছে। চক্রটিতে 3টি ধাপ রয়েছে: লেবেল ছাড়াই ভয়েস বৈশিষ্ট্যগুলি বর্ণনা করার জন্য একটি পূর্ব-প্রশিক্ষিত মডেল তৈরি করা, দুটি সমস্যার জন্য পূর্ব-প্রশিক্ষিত মডেল থেকে সূক্ষ্ম-টিউনিং: বক্তৃতা স্বীকৃতি এবং আবেগ স্বীকৃতি, এবং অনুমান।
"পূর্ববর্তী পণ্যগুলির উন্নয়ন এবং স্থাপনার সময় তথ্যের অভাবজনিত সমস্যা সমাধানের অভিজ্ঞতাও দলটিকে একটি নির্ধারক পদ্ধতি খুঁজে পেতে সাহায্য করার ক্ষেত্রে উল্লেখযোগ্য অবদান রেখেছে। বিপরীতে, পরীক্ষা থেকে প্রাপ্ত জ্ঞান এবং ফলাফলগুলি ভিয়েটেল এআই পণ্যগুলিতে তাৎক্ষণিকভাবে প্রয়োগ করার সম্ভাবনাও রাখে, তাই পরীক্ষা দেওয়ার সময় কাজ করার প্রক্রিয়াটি বেশ মসৃণভাবে সম্পন্ন হয়েছিল," বলেছেন ভিয়েটেল এআই-এর ভার্চুয়াল সহকারী প্ল্যাটফর্ম ইঞ্জিনিয়ার মিঃ বুই তিয়েন ডাট।
ফলস্বরূপ, ভিয়েটেল এআই কেবল স্পিচ রিকগনিশন এবং স্পিচ ইমোশন রিকগনিশন বিভাগে প্রথম পুরস্কার জিতেনি, বরং ৮৯.১৮% (পরবর্তী দলগুলি যথাক্রমে ৮৩.৪০% এবং ৭৮.৪৫%) এর চিত্তাকর্ষক স্কোরও অর্জন করেছে।
মিঃ সন বলেন, মূল বিষয়টি হলো ভিয়েতনামীদের জন্য বিশেষভাবে তৈরি স্পিচ প্রসেসিং মডেল, যা ভিয়েটেল এআই দীর্ঘদিন ধরে তৈরি করেছে।
"উপলব্ধ গবেষণা ফলাফল থেকে মডেল এবং নির্দেশাবলী ব্যবহার করার পরিবর্তে, ভিয়েতনামীয় ভাষা প্রক্রিয়াকরণের জন্য ভিয়েতনামীয় এআই নিজস্ব মডেল তৈরি এবং বিকাশ করার সিদ্ধান্ত নিয়েছে। এই মডেলটি ক্রমাগত আপডেট, অপ্টিমাইজ করা হয় এবং আরও কার্যকর হয়ে ওঠে," মিঃ সন বলেন।
কেবল প্রতিযোগিতার মধ্যেই সীমাবদ্ধ থাকবে না, ভিয়েটেল এআই-এর এই সমাধান ভার্চুয়াল সুইচবোর্ড পণ্য, ভিয়েটেল ভার্চুয়াল সহকারীকে আপগ্রেড করার ভিত্তি হিসেবে কাজ করবে, যা কথোপকথনে গ্রাহকদের আবেগকে আরও সঠিকভাবে সনাক্ত করতে সাহায্য করবে, যার ফলে প্রতিক্রিয়া জানাবে বা শব্দের উপযুক্ত সূক্ষ্মতা বেছে নেবে। এইভাবে, মানুষ এবং এআই-এর মধ্যে কথোপকথন আরও স্বাভাবিক হয়ে উঠবে, ব্যবহারকারীর অভিজ্ঞতা উন্নত করবে। গ্রাহক সেবায় অনেক নতুন অ্যাপ্লিকেশনও খোলা হচ্ছে যেমন গ্রাহকদের অভিযোগ স্বয়ংক্রিয়ভাবে সনাক্ত করার জন্য একটি সিস্টেম তৈরি করা এবং সময়মত পরিচালনা বা তথ্য কাজে লাগানোর জন্য সুইচবোর্ডে অভিযোগ জমা দেওয়া।
ইউনিট প্রতিনিধি বলেন যে ভিয়েটেল এআই প্রযুক্তির বিকাশ অব্যাহত রাখবে, নির্ভুলতা বৃদ্ধি, ব্যবহারকারীর অভিজ্ঞতা এবং পণ্যের দক্ষতা বৃদ্ধির জন্য ক্রমাগত পণ্য আপগ্রেড করবে।
কোওক টুয়ান
[বিজ্ঞাপন_২]
উৎস
মন্তব্য (0)