ویتنامی لینگویج اینڈ اسپیچ پروسیسنگ (VLSP) مقابلہ ویتنام کی ایسوسی ایشن فار انفارمیشن ٹیکنالوجی کی شاخ VLSP کلب کے زیر اہتمام سالانہ بین الاقوامی کانفرنس برائے ویتنامی زبان اور اسپیچ پروسیسنگ کا حصہ ہے۔ VLSP 2023 اسپیچ اور ٹیکسٹ پروسیسنگ پر 10 مقابلوں کا اہتمام کرتا ہے، جس میں سرکردہ محققین، ماہرین اور ٹیکنالوجی ڈیولپمنٹ یونٹس کو اکٹھا کیا جاتا ہے۔
اگرچہ یہ چوتھی بار تھا جب Viettel AI نے مقابلے میں حصہ لیا تھا اور اس سے پہلے تین بار جیت چکی تھی، لیکن Viettel انجینئرز کو مقابلے کے زمرے کے ڈھانچے میں تبدیلی کی وجہ سے اب بھی بہت سی مشکلات کا سامنا کرنا پڑا۔
خاص طور پر گزشتہ سال کے مقابلے اس سال تقریر کی شناخت اور جذبات کی شناخت کے زمروں کو ایک زمرے میں ضم کر دیا گیا ہے۔ ٹیموں کو ایک ہی وقت میں دو مسائل کو حل کرنا چاہیے تاکہ یہ یقینی بنایا جا سکے کہ جملے کے متن اور جذبات دونوں کو تسلیم کیا گیا ہے، کام کا بوجھ اور مشکل دونوں دوگنا ہو چکے ہیں۔
ہر ڈیٹا کا استعمال کریں، خواہ کم ہو یا اعلیٰ
نہ صرف زمروں کے ڈھانچے کو تبدیل کرنا، بلکہ اس سال کے امتحان میں خام، بغیر لیبل والے اور کم معیار کے ڈیٹا سمیت محدود ڈیٹا کی شرائط کے ساتھ شروع سے ماڈلز بنانے پر بھی توجہ دی گئی ہے۔ امتحان مختلف کوالٹی اور فارم کے ساتھ ڈیٹا کے 4 گروپ فراہم کرتا ہے۔ ایسا ڈیٹا ہے جس میں صرف بغیر لیبل والا آڈیو، وہ ڈیٹا جس میں صرف آڈیو اور ٹیکسٹ شامل ہوتا ہے، ڈیٹا جس میں جذبات اور آڈیو شامل ہوتا ہے، اعلیٰ معیار، معیاری لیبلز، اور ایک ڈیٹا سیٹ جس میں جذبات اور آڈیو، کم معیار شامل ہوتا ہے۔ ہر ڈیٹاسیٹ کو ہر مقصد اور امتحان کے زمرے کو پورا کرنے کے لیے واضح طور پر بیان کیا گیا ہے، تمام ڈیٹا سیٹس پر کل 300 گھنٹے سے زیادہ کے ساتھ۔ اسپیچ ریکگنیشن کی تربیت کے لیے معیاری ڈیٹا سیٹس کے مقابلے یہ کافی معمولی تعداد ہے، جس کے لیے عام طور پر 1,000-2,000 گھنٹے یا اس سے زیادہ وقت درکار ہوتا ہے۔
ہر ٹیم کے پاس اپنے کام پر کام کرنے اور جمع کرانے کے لیے 2 ماہ سے بھی کم وقت تھا، لیکن درحقیقت، وسائل کی کمی کی وجہ سے مسائل کے حل پر تحقیق کرنے میں اصل وقت بہت کم تھا۔
"اس سال، Viettel AI نے کمپیوٹنگ کے بہت سے بنیادی ڈھانچے کے وسائل کو نئی ٹیکنالوجیز کی تحقیق کے ساتھ ساتھ مصنوعات کی ترقی کے لیے وقف کیا ہے، جب کہ تقریر کی شناخت ایک ایسی ٹیکنالوجی ہے جس کے لیے بہت سارے ہارڈ ویئر وسائل کی ضرورت ہوتی ہے،" مسٹر ڈانگ ڈنہ سن - مصنوعی ذہانت کے انجینئر، ورچوئل اسسٹنٹ پلیٹ فارم، Viettel AI نے کہا۔
کم ڈیٹا والیوم اور کوالٹی کی حالت کا سامنا کرتے ہوئے، تحقیقی ٹیم نے فوری طور پر "کم یا اعلیٰ معیار سے قطع نظر تمام ڈیٹا کو استعمال کرنے" کے نقطہ نظر کا تعین کیا۔ ایسا کرنے کے لیے، تمام ڈیٹا کو پروسیس کرنے کے لیے ایک ٹریننگ سائیکل بنانا ضروری ہے اور ساتھ ہی ساتھ بہت سے ماڈلز کے بجائے بہت سے مختلف مسائل کو حل کرنے کے لیے صرف ایک ماڈل۔
اہم ٹیکنالوجی کی مہارت کے نتائج
اعداد و شمار کی کمی اور وسائل کی کمی دونوں کے تناظر میں، تحقیقی ٹیم نے ایک سادہ، بڑے پیمانے پر نہیں، لیکن اہم بات یہ ہے کہ سب سے چھوٹی تفصیل تک بہتر پروسیسنگ عمل بنانے کا فیصلہ کیا۔
Viettel AI انجینئرز نے نقطہ نظر تلاش کرنے کے لیے دنیا بھر کی معروف کانفرنسوں اور جرائد کی تازہ ترین تحقیق کا بغور مطالعہ کیا۔ مؤثر ثابت ہونے والے ماڈل کو تربیت دینے کے لیے ڈیٹا پروسیسنگ کے طریقوں کے ساتھ مل کر، ریسرچ ٹیم نے تمام دستیاب ڈیٹا پر کارروائی کرنے کے لیے ایک تربیتی سائیکل بنایا۔ سائیکل میں 3 مراحل شامل ہیں: لیبل کے بغیر آواز کی خصوصیات کو بیان کرنے کے لیے پہلے سے تربیت یافتہ ماڈل بنانا، دو مسائل کے لیے پہلے سے تربیت یافتہ ماڈل سے ٹھیک ٹیوننگ: تقریر کی شناخت اور جذبات کی شناخت، اور اندازہ۔
"پچھلی پروڈکٹس کی ڈیولپمنٹ اور تعیناتی کے دوران ڈیٹا کی کمی کے ساتھ مسائل کو حل کرنے کے تجربے نے بھی ٹیم کو فیصلہ سازی کا طریقہ تلاش کرنے میں اہم کردار ادا کیا۔ اس کے برعکس، ٹیسٹ سے حاصل کردہ معلومات اور نتائج کا فوری طور پر Viettel AI پروڈکٹس پر لاگو کیا جا سکتا ہے، اس لیے ٹیسٹ لینے کے دوران کام کرنے کا عمل کافی آسان رہا۔" اے آئی
نتیجے کے طور پر، Viettel AI نے نہ صرف تقریر کی شناخت اور تقریر کے جذبات کی شناخت کے زمروں میں پہلا انعام جیتا بلکہ 89.18% کا متاثر کن اسکور بھی حاصل کیا (اگلی ٹیمیں بالترتیب 83.40% اور 78.45% تھیں)۔
مسٹر سن نے کہا کہ کلیدی عنصر اسپیچ پروسیسنگ ماڈل میں مضمر ہے خاص طور پر ویتنامی کے لیے جسے Viettel AI نے ایک طویل عرصے سے تیار کیا ہے۔
"دستیاب تحقیقی نتائج سے ماڈلز اور ہدایات استعمال کرنے کے بجائے، Viettel AI نے ویتنامی اسپیچ پروسیسنگ کے لیے اپنا ماڈل بنانے اور تیار کرنے کا انتخاب کیا۔ یہ ماڈل مسلسل اپ ڈیٹ، بہتر اور زیادہ سے زیادہ موثر ہوتا جاتا ہے،" مسٹر سون نے کہا۔
صرف مقابلے پر نہیں رکے، Viettel AI کا یہ حل ورچوئل سوئچ بورڈ پروڈکٹس، Viettel ورچوئل اسسٹنٹ کو اپ گریڈ کرنے کی بنیاد ہو گا، جو بات چیت میں صارفین کے جذبات کو زیادہ درست طریقے سے پہچاننے میں مدد کرے گا، اس طرح رائے دینے یا الفاظ کی مناسب باریکیوں کا انتخاب کر سکے گا۔ اس طرح، انسانوں اور AI کے درمیان بات چیت زیادہ قدرتی ہو جائے گی، صارف کے تجربے کو بہتر بنائے گی۔ کسٹمر کیئر میں بہت سی نئی ایپلی کیشنز بھی کھولی گئی ہیں جیسے کہ صارفین کی شکایات اور شکایات کی خود بخود شناخت کرنے کے لیے ایک نظام بنانا تاکہ بروقت ہینڈلنگ ہو سکے یا معلومات سے فائدہ اٹھایا جا سکے۔
یونٹ کے نمائندے نے کہا کہ Viettel AI ٹیکنالوجی کی ترقی، درستگی بڑھانے، صارف کے تجربے اور مصنوعات کی کارکردگی کو بڑھانے کے لیے مسلسل مصنوعات کو اپ گریڈ کرنا جاری رکھے گا۔
Quoc Tuan
ماخذ
تبصرہ (0)