Штучний інтелект Viettel отримав подвійні нагороди на конкурсі з мови та обробки мовлення

Конкурс з в'єтнамської мови та обробки мовлення (VLSP) є частиною щорічної Міжнародної конференції з в'єтнамської мови та обробки мовлення, організованої Клубом VLSP, філією В'єтнамської асоціації інформаційних технологій. VLSP 2023 організовує 10 конкурсів з обробки мовлення та тексту, об'єднуючи провідних дослідників, експертів та підрозділи з розробки технологій.

Хоча Viettel AI брала участь у змаганнях вже вчетверте та перемагала тричі раніше, інженери Viettel все ще зіткнулися з багатьма труднощами через зміни в структурі категорій змагань.

Зокрема, порівняно з минулим роком, категорії «Розпізнавання мовлення» та «Розпізнавання емоцій» цього року об’єднано в одну. Команди повинні розв’язувати дві задачі одночасно, щоб забезпечити розпізнавання як тексту, так і емоцій речення, а робоче навантаження та складність подвоїлися.

Використовуйте всі дані, незалежно від їхньої якості

Цьогорічний іспит не лише змінює структуру категорій, але й зосереджується на побудові моделей з нуля з обмеженими умовами даних, включаючи необроблені, немарковані та низькоякісні дані. Іспит надає 4 групи даних різної якості та форми. Є дані, що включають лише немаркований звук, дані, що включають лише аудіо та текст, дані, що включають емоції та аудіо високої якості зі стандартними мітками, та дані, що включають емоції та аудіо низької якості. Кожен набір даних чітко визначено для кожної мети та категорії іспиту, із загальною тривалістю понад 300 годин на всі набори даних. Це досить скромна кількість порівняно зі стандартними наборами даних для навчання розпізнаванню мовлення, які зазвичай вимагають до 1000-2000 годин або більше.

Кожна команда мала менше 2 місяців, щоб завершити та подати свою роботу, але насправді фактичний час, витрачений на дослідження рішень, був набагато меншим через брак ресурсів.

«Цього року Viettel AI присвятила багато ресурсів обчислювальної інфраструктури дослідженню нових технологій, а також розробці продуктів, тоді як розпізнавання мовлення – це технологія, яка вимагає дуже великих апаратних ресурсів», – поділився пан Данг Дінь Сон – інженер зі штучного інтелекту, платформа віртуальних асистентів Viettel AI.

фото 1.jpg — Група інженерії штучного інтелекту, блок платформи віртуальних помічників, представляє Viettel AI, беручи участь у категорії розпізнавання мовлення та розпізнавання емоцій мовлення - VLSP 2023

Зіткнувшись із умовою низького обсягу та якості даних, дослідницька група одразу визначила точку зору «необхідності використовувати всі дані незалежно від низької чи високої якості». Для цього необхідно побудувати цикл навчання для обробки всіх даних, а також використовувати лише одну модель для вирішення багатьох різних проблем замість багатьох моделей.

Результати оволодіння новаторськими технологіями

В умовах браку даних та ресурсів дослідницька група вирішила створити простий, не масивний, але, що важливо, точно налаштований процес обробки аж до найдрібніших деталей.

Інженери Viettel AI ретельно вивчили останні дослідження провідних конференцій та журналів по всьому світу , щоб знайти підхід. Поєднавши ефективні методи обробки даних для навчання моделі, дослідницька група створила навчальний цикл для обробки всіх доступних даних. Цикл включає 3 кроки: побудова попередньо навченої моделі для опису голосових характеристик без позначок, точне налаштування попередньо навченої моделі для двох задач: розпізнавання мовлення та розпізнавання емоцій, а також логічний висновок.

«Досвід вирішення проблем, пов’язаних з браком даних під час розробки та впровадження попередніх продуктів, також значною мірою допоміг команді знайти вирішальний метод. Навпаки, знання та результати, отримані в результаті тестування, також мають потенціал для негайного застосування до продуктів Viettel AI, тому процес роботи під час проходження тестування пройшов досить гладко», – сказав пан Буй Тьєн Дат – інженер-помічник платформи віртуального помічника Viettel AI.

В результаті, Viettel AI не лише посів перше місце в категоріях «Розпізнавання мовлення» та «Розпізнавання емоцій мовлення», але й досяг вражаючого результату 89,18% (наступні команди мали 83,40% та 78,45% відповідно).

Пан Сон сказав, що ключовим фактором є модель обробки мовлення, спеціально розроблена для в'єтнамської мови, яку Viettel AI розробляв протягом тривалого часу.

«Замість використання моделей та інструкцій з доступних результатів досліджень, Viettel AI вирішила створити та розробити власну модель обробки в'єтнамського мовлення. Ця модель постійно оновлюється, оптимізується та стає дедалі ефективнішою», – сказав пан Сон.

Це рішення Viettel AI не лише зупиняється на конкуренції, але й стане передумовою для оновлення продуктів віртуальних комутаторів, віртуальних помічників Viettel, допомагаючи точніше визначати емоції клієнтів під час розмов, тим самим надаючи зворотний зв'язок або вибираючи відповідні нюанси слів. Таким чином, розмови між людьми та штучним інтелектом стануть більш природними, покращуючи взаємодію з користувачем. Також відкривається багато нових застосувань у сфері обслуговування клієнтів, таких як створення системи для автоматичного виявлення скарг клієнтів та скарг на комутатор для своєчасного обробки або використання інформації.

фото 2.jpg — Пан Буй Тьєн Дат - інженер платформи віртуального асистента компанії Viettel AI представляв команду, щоб представити результати дослідження на семінарі.

Представник підрозділу заявив, що Viettel AI продовжуватиме розвивати технології, постійно вдосконалювати продукти для підвищення точності, покращення взаємодії з користувачем та ефективності продуктів.

Куок Туан

Джерело