مسابقه پردازش زبان و گفتار ویتنامی (VLSP) بخشی از کنفرانس بین‌المللی سالانه پردازش زبان و گفتار ویتنامی است که توسط باشگاه VLSP، شاخه‌ای از انجمن فناوری اطلاعات ویتنام، برگزار می‌شود. VLSP 2023، 10 مسابقه در زمینه پردازش گفتار و متن را برگزار می‌کند و محققان، متخصصان و واحدهای توسعه فناوری برجسته را گرد هم می‌آورد.

اگرچه این چهارمین باری بود که شرکت هوش مصنوعی ویتل در این رقابت شرکت می‌کرد و پیش از این سه بار برنده شده بود، مهندسان ویتل به دلیل تغییرات در ساختار دسته بندی مسابقات، همچنان با مشکلات زیادی روبرو بودند.

به طور خاص، در مقایسه با سال گذشته، دسته‌های تشخیص گفتار و تشخیص احساسات امسال در یک دسته ادغام شده‌اند. تیم‌ها باید دو مسئله را همزمان حل کنند تا از تشخیص متن و احساسات جمله اطمینان حاصل شود، حجم کار و دشواری هر دو دو برابر شده است.

از هر داده‌ای، چه کم‌کیفیت و چه باکیفیت، استفاده کنید

آزمون امسال نه تنها ساختار دسته‌ها را تغییر داده، بلکه بر ساخت مدل‌ها از ابتدا با شرایط داده محدود، از جمله داده‌های خام، بدون برچسب و با کیفیت پایین نیز تمرکز دارد. این آزمون ۴ گروه داده با کیفیت و شکل متفاوت ارائه می‌دهد. داده‌هایی وجود دارد که فقط شامل صدای بدون برچسب هستند، داده‌هایی که فقط شامل صدا و متن هستند، داده‌هایی که شامل احساسات و صدا هستند، با کیفیت بالا، برچسب‌های استاندارد، و داده‌هایی که شامل احساسات و صدا هستند، با کیفیت پایین. هر مجموعه داده به وضوح برای خدمت به هر هدف و دسته آزمون تعریف شده است، و در مجموع بیش از ۳۰۰ ساعت برای همه مجموعه داده‌ها صرف شده است. این تعداد در مقایسه با مجموعه داده‌های استاندارد برای آموزش تشخیص گفتار که معمولاً به ۱۰۰۰ تا ۲۰۰۰ ساعت یا بیشتر نیاز دارند، عدد نسبتاً کمی است.

هر تیم کمتر از ۲ ماه فرصت داشت تا کار خود را تکمیل و ارسال کند، اما در واقعیت، به دلیل کمبود منابع، زمان واقعی صرف شده برای تحقیق در مورد راه‌حل‌ها بسیار کمتر بود.

آقای دانگ دین سون - مهندس هوش مصنوعی، پلتفرم دستیار مجازی، Viettel AI - گفت: «امسال، Viettel AI منابع زیرساخت محاسباتی زیادی را به تحقیق در مورد فناوری‌های جدید و همچنین توسعه محصولات اختصاص داده است، در حالی که تشخیص گفتار فناوری‌ای است که به منابع سخت‌افزاری بسیار بزرگی نیاز دارد.»

عکس ۱.jpg
گروه مهندسی هوش مصنوعی، بلوک پلتفرم دستیار مجازی، نماینده Viettel AI شرکت کننده در بخش تشخیص گفتار و تشخیص احساسات گفتاری - VLSP 2023

تیم تحقیقاتی در مواجهه با شرایط حجم و کیفیت پایین داده‌ها، بلافاصله دیدگاه «لزوم استفاده از همه داده‌ها صرف نظر از کیفیت پایین یا بالا» را تعیین کرد. برای انجام این کار، لازم است یک چرخه آموزشی برای پردازش همه داده‌ها و همچنین تنها یک مدل برای حل مسائل مختلف به جای مدل‌های متعدد ایجاد شود.

نتایج تسلط پیشگامانه بر فناوری

در زمینه کمبود داده‌ها و همچنین کمبود منابع، تیم تحقیقاتی تصمیم گرفت یک فرآیند پردازش ساده، نه عظیم، اما مهم‌تر از همه، دقیق و تنظیم‌شده تا کوچکترین جزئیات ایجاد کند.

مهندسان هوش مصنوعی Viettel با دقت آخرین تحقیقات کنفرانس‌ها و مجلات پیشرو در سراسر جهان را برای یافتن رویکردی مطالعه کردند. تیم تحقیقاتی، با ترکیب روش‌های پردازش داده برای آموزش مدل که مؤثر بوده‌اند، یک چرخه آموزشی برای پردازش تمام داده‌های موجود ایجاد کردند. این چرخه شامل ۳ مرحله است: ساخت یک مدل از پیش آموزش‌دیده برای توصیف ویژگی‌های صدا بدون برچسب‌ها، تنظیم دقیق از مدل از پیش آموزش‌دیده برای دو مشکل: تشخیص گفتار و تشخیص احساسات، و استنتاج.

آقای بویی تین دات - مهندس پلتفرم دستیار مجازی، Viettel AI - گفت: «تجربه حاصل از حل مشکلات مربوط به کمبود داده‌ها در طول توسعه و استقرار محصولات قبلی نیز به طور قابل توجهی به تیم در یافتن یک روش تعیین‌کننده کمک کرد. برعکس، دانش و نتایج به دست آمده از این آزمایش همچنین پتانسیل اعمال فوری به محصولات هوش مصنوعی Viettel را دارند، بنابراین روند کار هنگام انجام آزمایش کاملاً روان پیش رفت.»

در نتیجه، Viettel AI نه تنها جایزه اول را در دسته‌های تشخیص گفتار و تشخیص احساسات گفتاری کسب کرد، بلکه به امتیاز چشمگیر ۸۹.۱۸٪ نیز دست یافت (تیم‌های بعدی به ترتیب ۸۳.۴۰٪ و ۷۸.۴۵٪ بودند).

آقای سان گفت عامل کلیدی در مدل پردازش گفتار مخصوص ویتنامی نهفته است که Viettel AI مدت‌هاست توسعه داده است.

آقای سان گفت: «به جای استفاده از مدل‌ها و دستورالعمل‌های حاصل از نتایج تحقیقات موجود، شرکت هوش مصنوعی ویتل تصمیم گرفت مدل خود را برای پردازش گفتار ویتنامی بسازد و توسعه دهد. این مدل دائماً به‌روزرسانی، بهینه‌سازی و مؤثرتر می‌شود.»

این راهکار هوش مصنوعی ویتل نه تنها در رقابت متوقف می‌شود، بلکه زمینه‌ساز ارتقاء محصولات مرکز تماس مجازی، دستیار مجازی ویتل، خواهد بود و به شناسایی دقیق‌تر احساسات مشتریان در مکالمات کمک می‌کند و در نتیجه بازخورد ارائه می‌دهد یا ظرافت‌های مناسب کلمات را انتخاب می‌کند. بنابراین، مکالمات بین انسان و هوش مصنوعی طبیعی‌تر می‌شود و تجربه کاربر را بهبود می‌بخشد. بسیاری از کاربردهای جدید در خدمات مشتری نیز در حال ظهور هستند، مانند ساخت سیستمی برای شناسایی خودکار شکایات مشتری و ارسال آنها به مرکز تماس برای رسیدگی به موقع یا بهره‌برداری از اطلاعات.

عکس ۲.jpg
آقای بویی تین دات - مهندس پلتفرم دستیار مجازی، شرکت هوش مصنوعی ویتل، نماینده تیم برای ارائه نتایج تحقیق در کارگاه بود.

نماینده این واحد گفت که Viettel AI به توسعه فناوری ادامه خواهد داد، دائماً محصولات را ارتقا خواهد داد تا دقت را افزایش دهد، تجربه کاربری و کارایی محصول را بهبود بخشد.

کوک توان