Tävlingen om vietnamesisk språk- och talbehandling (VLSP) är en del av den årliga internationella konferensen om vietnamesisk språk- och talbehandling som organiseras av VLSP Club, en gren av Vietnam Information Technology Association. VLSP 2023 anordnar 10 tävlingar om tal- och textbehandling, som sammanför ledande forskare, experter och teknikutvecklingsenheter.

Även om detta var fjärde gången Viettel AI deltog i tävlingen och hade vunnit tre gånger tidigare, stötte Viettels ingenjörer fortfarande på många svårigheter på grund av förändringar i tävlingskategoristrukturen.

Mer specifikt, jämfört med förra året, har kategorierna Taligenkänning och Känsloigenkänning i år slagits samman till en kategori. Teamen måste lösa två problem samtidigt för att säkerställa igenkänning av både texten och meningens känsla, vilket har fördubblats både arbetsbelastningen och svårighetsgraden.

Använd all data, oavsett om den är av låg eller hög kvalitet

Årets prov ändrar inte bara kategoriernas struktur, utan fokuserar också på att bygga modeller från grunden med begränsade dataförhållanden, inklusive rådata, omärkta data och data av låg kvalitet. Provet tillhandahåller fyra grupper av data med olika kvalitet och form. Det finns data som endast inkluderar omärkt ljud, data som endast inkluderar ljud och text, data som inkluderar känslor och ljud, hög kvalitet, standardetiketter, och data som inkluderar känslor och ljud, låg kvalitet. Varje dataset är tydligt definierat för att tjäna varje syfte och provkategori, med totalt mer än 300 timmar på alla dataset. Detta är ett ganska blygsamt antal jämfört med standarddataset för träning av taligenkänning, som vanligtvis kräver upp till 1 000–2 000 timmar eller mer.

Varje team hade mindre än två månader på sig att slutföra och lämna in sitt arbete, men i verkligheten var den faktiska tiden som lades ner på att undersöka lösningar mycket kortare på grund av brist på resurser.

”I år har Viettel AI ägnat mycket resurser inom datorinfrastruktur åt att undersöka nya tekniker samt utveckla produkter, medan taligenkänning är en teknik som kräver mycket stora hårdvaruresurser”, delade Dang Dinh Son - ingenjör inom artificiell intelligens, virtuell assistentplattform, Viettel AI.

foto 1.jpg
Artificial Intelligence Engineering Group, Virtual Assistant Platform Block, representerar Viettel AI i kategorin Taligenkänning och Taligenkänning av känslor - VLSP 2023

Inför situationen med låg datavolym och datakvalitet bestämde sig forskargruppen omedelbart för att "använda all data oavsett låg eller hög kvalitet". För att göra detta är det nödvändigt att bygga en träningscykel för att bearbeta all data samt endast en modell för att lösa många olika problem istället för många modeller.

Resultaten av banbrytande teknikbehärskning

Mot bakgrund av både brist på data och brist på resurser beslutade forskargruppen att bygga en enkel, inte massiv, men viktigast av allt, finjusterad bearbetningsprocess in i minsta detalj.

Viettels AI-ingenjörer studerade noggrant den senaste forskningen från ledande konferenser och tidskrifter runt om i världen för att hitta en metod. Kombinerat med effektiva databehandlingsmetoder för att träna modellen, byggde forskargruppen en träningscykel för att bearbeta all tillgänglig data. Cykeln omfattar tre steg: att bygga en förtränad modell för att beskriva röstfunktioner utan etiketter, finjustering från den förtränade modellen för två problem: taligenkänning och känsloigenkänning, samt inferens.

”Erfarenhet av att lösa problem med brist på data under utveckling och driftsättning av tidigare produkter bidrog också avsevärt till att hjälpa teamet att hitta en avgörande metod. Tvärtom har kunskapen och resultaten från testet också potential att omedelbart tillämpas på Viettel AI-produkter, så processen att arbeta under testet gick ganska smidigt”, sa Bui Tien Dat - virtuell assistentplattformsingenjör, Viettel AI.

Som ett resultat vann Viettel AI inte bara första pris i kategorierna Taligenkänning och Taligenkänning av känslor, utan uppnådde också en imponerande poäng på 89,18 % (nästföljande lag var 83,40 % respektive 78,45 %).

Herr Son sa att nyckelfaktorn ligger i den talbehandlingsmodell specifikt för vietnamesiska som Viettel AI har utvecklat under lång tid.

”Istället för att använda modeller och instruktioner från tillgängliga forskningsresultat valde Viettel AI att bygga och utveckla sin egen modell för vietnamesisk talbehandling. Denna modell uppdateras, optimeras ständigt och blir mer och mer effektiv”, sa Son.

Viettel AI-lösningen kommer inte bara att stanna vid konkurrenterna, utan kommer också att vara förutsättningen för att uppgradera virtuella växelprodukter, Viettels virtuella assistent, vilket hjälper till att identifiera kunders känslor mer exakt i samtal, och därigenom ge feedback eller välja lämpliga nyanser i ord. Därmed kommer samtal mellan människor och AI att bli mer naturliga, vilket förbättrar användarupplevelsen. Många nya tillämpningar inom kundvård öppnas också, såsom att bygga ett system för att automatiskt identifiera kundklagomål och klagomål till växeln för snabb hantering eller för att utnyttja information.

foto 2.jpg
Herr Bui Tien Dat - virtuell assistentplattformsingenjör, Viettel AI, representerade teamet för att presentera forskningsresultaten på workshopen.

Enhetsrepresentanten sa att Viettel AI kommer att fortsätta utveckla teknik, ständigt uppgradera produkter för att öka noggrannheten, förbättra användarupplevelsen och produkteffektiviteten.

Quoc Tuan