مسابقه پردازش زبان و گفتار ویتنامی (VLSP) بخشی از کنفرانس بینالمللی سالانه پردازش زبان و گفتار ویتنامی است که توسط باشگاه VLSP، شاخهای از انجمن فناوری اطلاعات ویتنام، برگزار میشود. VLSP 2023، 10 مسابقه در زمینه پردازش گفتار و متن را برگزار میکند و محققان، متخصصان و واحدهای توسعه فناوری برجسته را گرد هم میآورد.
اگرچه این چهارمین باری بود که شرکت هوش مصنوعی ویتل در این رقابت شرکت میکرد و پیش از این سه بار برنده شده بود، مهندسان ویتل به دلیل تغییرات در ساختار دسته بندی مسابقات، همچنان با مشکلات زیادی روبرو بودند.
به طور خاص، در مقایسه با سال گذشته، دستههای تشخیص گفتار و تشخیص احساسات امسال در یک دسته ادغام شدهاند. تیمها باید دو مسئله را همزمان حل کنند تا از تشخیص متن و احساسات جمله اطمینان حاصل شود، حجم کار و دشواری هر دو دو برابر شده است.
از هر دادهای، چه کمکیفیت و چه باکیفیت، استفاده کنید
آزمون امسال نه تنها ساختار دستهها را تغییر داده، بلکه بر ساخت مدلها از ابتدا با شرایط داده محدود، از جمله دادههای خام، بدون برچسب و با کیفیت پایین نیز تمرکز دارد. این آزمون ۴ گروه داده با کیفیت و شکل متفاوت ارائه میدهد. دادههایی وجود دارد که فقط شامل صدای بدون برچسب هستند، دادههایی که فقط شامل صدا و متن هستند، دادههایی که شامل احساسات و صدا هستند، با کیفیت بالا، برچسبهای استاندارد، و دادههایی که شامل احساسات و صدا هستند، با کیفیت پایین. هر مجموعه داده به وضوح برای خدمت به هر هدف و دسته آزمون تعریف شده است، و در مجموع بیش از ۳۰۰ ساعت برای همه مجموعه دادهها صرف شده است. این تعداد در مقایسه با مجموعه دادههای استاندارد برای آموزش تشخیص گفتار که معمولاً به ۱۰۰۰ تا ۲۰۰۰ ساعت یا بیشتر نیاز دارند، عدد نسبتاً کمی است.
هر تیم کمتر از ۲ ماه فرصت داشت تا کار خود را تکمیل و ارسال کند، اما در واقعیت، به دلیل کمبود منابع، زمان واقعی صرف شده برای تحقیق در مورد راهحلها بسیار کمتر بود.
آقای دانگ دین سون - مهندس هوش مصنوعی، پلتفرم دستیار مجازی، Viettel AI - گفت: «امسال، Viettel AI منابع زیرساخت محاسباتی زیادی را به تحقیق در مورد فناوریهای جدید و همچنین توسعه محصولات اختصاص داده است، در حالی که تشخیص گفتار فناوریای است که به منابع سختافزاری بسیار بزرگی نیاز دارد.»
تیم تحقیقاتی در مواجهه با شرایط حجم و کیفیت پایین دادهها، بلافاصله دیدگاه «لزوم استفاده از همه دادهها صرف نظر از کیفیت پایین یا بالا» را تعیین کرد. برای انجام این کار، لازم است یک چرخه آموزشی برای پردازش همه دادهها و همچنین تنها یک مدل برای حل مسائل مختلف به جای مدلهای متعدد ایجاد شود.
نتایج تسلط پیشگامانه بر فناوری
در زمینه کمبود دادهها و همچنین کمبود منابع، تیم تحقیقاتی تصمیم گرفت یک فرآیند پردازش ساده، نه عظیم، اما مهمتر از همه، دقیق و تنظیمشده تا کوچکترین جزئیات ایجاد کند.
مهندسان هوش مصنوعی Viettel با دقت آخرین تحقیقات کنفرانسها و مجلات پیشرو در سراسر جهان را برای یافتن رویکردی مطالعه کردند. تیم تحقیقاتی، با ترکیب روشهای پردازش داده برای آموزش مدل که مؤثر بودهاند، یک چرخه آموزشی برای پردازش تمام دادههای موجود ایجاد کردند. این چرخه شامل ۳ مرحله است: ساخت یک مدل از پیش آموزشدیده برای توصیف ویژگیهای صدا بدون برچسبها، تنظیم دقیق از مدل از پیش آموزشدیده برای دو مشکل: تشخیص گفتار و تشخیص احساسات، و استنتاج.
آقای بویی تین دات - مهندس پلتفرم دستیار مجازی، Viettel AI - گفت: «تجربه حاصل از حل مشکلات مربوط به کمبود دادهها در طول توسعه و استقرار محصولات قبلی نیز به طور قابل توجهی به تیم در یافتن یک روش تعیینکننده کمک کرد. برعکس، دانش و نتایج به دست آمده از این آزمایش همچنین پتانسیل اعمال فوری به محصولات هوش مصنوعی Viettel را دارند، بنابراین روند کار هنگام انجام آزمایش کاملاً روان پیش رفت.»
در نتیجه، Viettel AI نه تنها جایزه اول را در دستههای تشخیص گفتار و تشخیص احساسات گفتاری کسب کرد، بلکه به امتیاز چشمگیر ۸۹.۱۸٪ نیز دست یافت (تیمهای بعدی به ترتیب ۸۳.۴۰٪ و ۷۸.۴۵٪ بودند).
آقای سان گفت عامل کلیدی در مدل پردازش گفتار مخصوص ویتنامی نهفته است که Viettel AI مدتهاست توسعه داده است.
آقای سان گفت: «به جای استفاده از مدلها و دستورالعملهای حاصل از نتایج تحقیقات موجود، شرکت هوش مصنوعی ویتل تصمیم گرفت مدل خود را برای پردازش گفتار ویتنامی بسازد و توسعه دهد. این مدل دائماً بهروزرسانی، بهینهسازی و مؤثرتر میشود.»
این راهکار هوش مصنوعی ویتل نه تنها در رقابت متوقف میشود، بلکه زمینهساز ارتقاء محصولات مرکز تماس مجازی، دستیار مجازی ویتل، خواهد بود و به شناسایی دقیقتر احساسات مشتریان در مکالمات کمک میکند و در نتیجه بازخورد ارائه میدهد یا ظرافتهای مناسب کلمات را انتخاب میکند. بنابراین، مکالمات بین انسان و هوش مصنوعی طبیعیتر میشود و تجربه کاربر را بهبود میبخشد. بسیاری از کاربردهای جدید در خدمات مشتری نیز در حال ظهور هستند، مانند ساخت سیستمی برای شناسایی خودکار شکایات مشتری و ارسال آنها به مرکز تماس برای رسیدگی به موقع یا بهرهبرداری از اطلاعات.
نماینده این واحد گفت که Viettel AI به توسعه فناوری ادامه خواهد داد، دائماً محصولات را ارتقا خواهد داد تا دقت را افزایش دهد، تجربه کاربری و کارایی محصول را بهبود بخشد.
کوک توان
منبع






نظر (0)