De Vietnamese taal- en spraakverwerkingscompetitie (VLSP) maakt deel uit van de jaarlijkse internationale conferentie over Vietnamese taal- en spraakverwerking, georganiseerd door de VLSP Club, een onderdeel van de Vietnam Information Technology Association. VLSP 2023 organiseert tien competities op het gebied van spraak- en tekstverwerking, waarbij vooraanstaande onderzoekers, experts en technologieontwikkelingsafdelingen samenkomen.

Hoewel dit de vierde keer was dat Viettel AI aan de wedstrijd deelnam en het bedrijf eerder al drie keer had gewonnen, ondervonden de ingenieurs van Viettel nog steeds veel moeilijkheden vanwege wijzigingen in de structuur van de wedstrijdcategorie.

Concreet zijn de categorieën Spraakherkenning en Emotieherkenning dit jaar samengevoegd tot één categorie ten opzichte van vorig jaar. De teams moeten twee opgaven tegelijk oplossen om zowel de tekst als de emotie van de zin te herkennen. De werkdruk en de moeilijkheidsgraad zijn verdubbeld.

Maak gebruik van alle data, of deze nu van lage of hoge kwaliteit zijn

Het examen van dit jaar verandert niet alleen de structuur van de categorieën, maar richt zich ook op het vanaf nul opbouwen van modellen met beperkte datacondities, waaronder ruwe, ongelabelde en lage kwaliteit data. Het examen biedt vier groepen data met verschillende kwaliteit en vorm. Er is data die alleen ongelabelde audio bevat, data die alleen audio en tekst bevat, data die emoties en audio bevat (hoge kwaliteit, standaardlabels), en data die emoties en audio bevat (lage kwaliteit). Elke dataset is duidelijk gedefinieerd om elk doel en elke examencategorie te dienen, met een totaal van meer dan 300 uur aan alle datasets. Dit is een vrij bescheiden aantal vergeleken met standaarddatasets voor het trainen van spraakherkenning, waarvoor doorgaans 1.000-2.000 uur of meer nodig is.

Elk team had minder dan 2 maanden de tijd om hun werk af te ronden en in te dienen. In werkelijkheid werd er echter veel minder tijd besteed aan het zoeken naar oplossingen, vanwege een gebrek aan middelen.

"Dit jaar heeft Viettel AI veel computerinfrastructuurbronnen besteed aan het onderzoeken van nieuwe technologieën en het ontwikkelen van producten, terwijl spraakherkenning een technologie is die zeer grote hardwarebronnen vereist", aldus de heer Dang Dinh Son - Artificial Intelligence Engineer, Virtual Assistant Platform, Viettel AI.

foto 1.jpg
Artificial Intelligence Engineering Group, Virtual Assistant Platform Block, vertegenwoordigt Viettel AI en neemt deel aan de categorie Spraakherkenning en Spraakemotieherkenning - VLSP 2023

Gezien de beperkte hoeveelheid en kwaliteit van de data, besloot het onderzoeksteam onmiddellijk om "alle data te gebruiken, ongeacht de lage of hoge kwaliteit". Om dit te bereiken, is het noodzakelijk om een ​​trainingscyclus te ontwikkelen om alle data te verwerken, en om slechts één model te gebruiken om meerdere problemen op te lossen in plaats van meerdere modellen.

De resultaten van baanbrekend technologisch meesterschap

Vanwege zowel een gebrek aan gegevens als aan middelen besloot het onderzoeksteam een ​​eenvoudig, niet enorm, maar wel belangrijk, verfijnd verwerkingsproces te bouwen, dat tot in de kleinste details was uitgewerkt.

AI-ingenieurs van Viettel hebben het laatste onderzoek van toonaangevende conferenties en tijdschriften wereldwijd zorgvuldig bestudeerd om een ​​aanpak te vinden. Gecombineerd met effectieve dataverwerkingsmethoden om het model te trainen, ontwikkelde het onderzoeksteam een ​​trainingscyclus om alle beschikbare data te verwerken. De cyclus bestaat uit drie stappen: het bouwen van een vooraf getraind model om stemkenmerken zonder labels te beschrijven, het finetunen van het vooraf getrainde model voor twee problemen: spraakherkenning en emotieherkenning, en het afleiden van conclusies.

"De ervaring met het oplossen van problemen met een gebrek aan data tijdens de ontwikkeling en implementatie van eerdere producten heeft het team ook aanzienlijk geholpen bij het vinden van een besluitvormingsmethode. Sterker nog, de kennis en resultaten die uit de test zijn verkregen, kunnen ook direct worden toegepast op Viettel AI-producten, waardoor het proces tijdens de test vrij soepel verliep", aldus de heer Bui Tien Dat, Virtual Assistant Platform Engineer bij Viettel AI.

Hierdoor won Viettel AI niet alleen de eerste prijs in de categorieën Spraakherkenning en Spraak-emotieherkenning, maar behaalde het ook een indrukwekkende score van 89,18% (de volgende teams behaalden respectievelijk 83,40% en 78,45%).

Volgens de heer Son ligt de sleutelfactor in het spraakverwerkingsmodel dat Viettel AI al lange tijd speciaal voor Vietnamezen ontwikkelt.

"In plaats van modellen en instructies uit beschikbare onderzoeksresultaten te gebruiken, koos Viettel AI ervoor om een ​​eigen model voor Vietnamese spraakverwerking te bouwen en te ontwikkelen. Dit model wordt voortdurend bijgewerkt, geoptimaliseerd en wordt steeds effectiever", aldus de heer Son.

Deze oplossing van Viettel AI zal niet alleen de concurrentie overstijgen, maar zal ook de basis vormen voor een upgrade van virtuele telefooncentrales, zoals de virtuele assistent van Viettel, die helpt om de emoties van klanten in gesprekken nauwkeuriger te identificeren, waardoor feedback kan worden gegeven of de juiste nuances in woorden kunnen worden gekozen. Gesprekken tussen mensen en AI zullen hierdoor natuurlijker verlopen en de gebruikerservaring verbeteren. Er worden ook veel nieuwe toepassingen in de klantenservice ontwikkeld, zoals de ontwikkeling van een systeem om klachten van klanten automatisch te identificeren en klachten door te geven aan de telefooncentrale voor tijdige afhandeling of om informatie te benutten.

foto 2.jpg
Dhr. Bui Tien Dat - Virtual Assistant Platform Engineer, Viettel AI vertegenwoordigde het team om de onderzoeksresultaten te presenteren tijdens de workshop.

De vertegenwoordiger van de eenheid zei dat Viettel AI de technologie zal blijven ontwikkelen, producten voortdurend zal upgraden om de nauwkeurigheid te verhogen, de gebruikerservaring zal verbeteren en de productefficiëntie zal verhogen.

Quoc Tuan