Конкурс з в'єтнамської мови та обробки мовлення (VLSP) є частиною щорічної Міжнародної конференції з в'єтнамської мови та обробки мовлення, організованої клубом VLSP, філією В'єтнамської асоціації інформаційних технологій. VLSP 2023 організовує 10 конкурсів з обробки мовлення та тексту, об'єднуючи провідних дослідників, експертів та підрозділи з розробки технологій.

Хоча Viettel AI брала участь у змаганнях вже вчетверте та перемагала тричі раніше, інженери Viettel все ще зіткнулися з багатьма труднощами через зміни в структурі категорій змагань.

Зокрема, порівняно з минулим роком, категорії «Розпізнавання мовлення» та «Розпізнавання емоцій» цього року об’єднано в одну. Команди повинні розв’язувати дві задачі одночасно, щоб розпізнати як текст, так і емоції речення, а робоче навантаження та складність подвоїлися.

Використовуйте всі дані, незалежно від їхньої якості

Цьогорічний іспит не лише змінює структуру категорій, але й зосереджується на побудові моделей з нуля з обмеженими умовами даних, включаючи необроблені, немарковані та низькоякісні дані. Іспит надає 4 групи даних різної якості та форми. Є дані, що включають лише немаркований звук, дані, що включають лише аудіо та текст, дані, що включають емоції та аудіо, високої якості, стандартних міток, та набір даних, що включає емоції та аудіо, низької якості. Кожен набір даних чітко визначено для кожної мети та категорії іспиту, із загальною тривалістю понад 300 годин на всі набори даних. Це досить скромна кількість порівняно зі стандартними наборами даних для навчання розпізнаванню мовлення, які зазвичай вимагають до 1000-2000 годин або більше.

Кожна команда мала менше 2 місяців, щоб опрацювати та подавати свою роботу, але насправді фактичний час, витрачений на дослідження рішень, був набагато меншим через брак ресурсів.

«Цього року Viettel AI присвятила багато ресурсів обчислювальної інфраструктури дослідженню нових технологій, а також розробці продуктів, тоді як розпізнавання мовлення – це технологія, яка вимагає багато апаратних ресурсів», – сказав пан Данг Дінь Сон – інженер зі штучного інтелекту, платформа віртуальних асистентів Viettel AI.

зображення 1.jpg
Група інженерії штучного інтелекту, блок платформи віртуальних помічників, представляє Viettel AI, беручи участь у категорії розпізнавання мовлення та розпізнавання емоцій мовлення - VLSP 2023

Зіткнувшись із умовою низького обсягу та якості даних, дослідницька група одразу визначила точку зору «необхідності використовувати всі дані незалежно від низької чи високої якості». Для цього необхідно побудувати цикл навчання для обробки всіх даних, а також використовувати лише одну модель для вирішення багатьох різних проблем замість багатьох моделей.

Результати оволодіння новаторськими технологіями

В умовах браку даних та ресурсів дослідницька група вирішила побудувати простий, не масивний, але, що важливо, вдосконалений процес обробки до найдрібніших деталей.

Інженери Viettel AI ретельно вивчили останні дослідження з провідних конференцій та журналів по всьому світу, щоб знайти підхід. Поєднавши ефективні методи обробки даних для навчання моделі, дослідницька група створила навчальний цикл для обробки всіх доступних даних. Цикл включає 3 кроки: побудова попередньо навченої моделі для опису голосових характеристик без позначок, точне налаштування попередньо навченої моделі для двох задач: розпізнавання мовлення та розпізнавання емоцій, а також логічний висновок.

«Досвід вирішення проблем, пов’язаних з браком даних під час розробки та впровадження попередніх продуктів, також значною мірою допоміг команді знайти метод прийняття рішень. Навпаки, знання та результати, отримані в результаті тестування, також мають потенціал для негайного застосування до продуктів Viettel AI, тому процес роботи під час проходження тестування пройшов досить гладко», – сказав пан Буй Тьєн Дат – інженер-помічник платформи віртуального помічника Viettel AI.

В результаті, Viettel AI не лише посів перше місце в категоріях «Розпізнавання мовлення» та «Розпізнавання емоцій мовлення», але й досяг вражаючого результату 89,18% (наступні команди мали 83,40% та 78,45% відповідно).

Пан Сон сказав, що ключовим фактором є модель обробки мовлення, спеціально розроблена для в'єтнамської мови, яку Viettel AI розробляв протягом тривалого часу.

«Замість використання моделей та інструкцій з доступних результатів досліджень, Viettel AI вирішила створити та розробити власну модель обробки в'єтнамського мовлення. Ця модель постійно оновлюється, оптимізується та стає дедалі ефективнішою», – сказав пан Сон.

Це рішення Viettel AI не лише зупиняється на конкуренції, але й стане передумовою для оновлення продуктів віртуальних комутаторів, віртуальних помічників Viettel, допомагаючи точніше визначати емоції клієнтів під час розмов, тим самим надаючи зворотний зв'язок або вибираючи відповідні нюанси слів. Таким чином, розмови між людьми та штучним інтелектом стануть більш природними, покращуючи взаємодію з користувачем. Також відкривається багато нових застосувань у сфері обслуговування клієнтів, таких як створення системи для автоматичного виявлення скарг клієнтів та скарг на комутатор для своєчасного обробки або використання інформації.

зображення 2.jpg
Пан Буй Тьєн Дат - інженер-помічник платформи віртуальних помічників компанії Viettel AI представляв команду, яка презентувала результати дослідження на конференції.

Представник підрозділу заявив, що Viettel AI продовжуватиме розвивати технології, постійно вдосконалювати продукти для підвищення точності, покращення користувацького досвіду та ефективності продуктів.

Куок Туан