Konkurransen om vietnamesisk språk- og talebehandling (VLSP) er en del av den årlige internasjonale konferansen om vietnamesisk språk- og talebehandling, organisert av VLSP-klubben, en avdeling av Vietnam Information Technology Association. VLSP 2023 arrangerer 10 konkurranser om tale- og tekstbehandling, som samler ledende forskere, eksperter og teknologiutviklingsenheter.

Selv om dette var fjerde gang Viettel AI deltok i konkurransen og hadde vunnet tre ganger tidligere, møtte Viettels ingeniører fortsatt på mange vanskeligheter på grunn av endringer i konkurransekategoristrukturen.

Mer spesifikt, sammenlignet med i fjor, har kategoriene Talegjenkjenning og Følelsesgjenkjenning i år blitt slått sammen til én kategori. Lagene må løse to problemer samtidig for å sikre gjenkjenning av både teksten og følelsen i setningen, arbeidsmengden og vanskelighetsgraden har doblet seg.

Benytt deg av alle data, enten de er av lav eller høy kvalitet

Årets eksamen endrer ikke bare strukturen i kategoriene, men fokuserer også på å bygge modeller fra bunnen av med begrensede dataforhold, inkludert rådata, data av umerket kvalitet og data av lav kvalitet. Eksamenen gir fire grupper med data med ulik kvalitet og form. Det finnes data som kun inkluderer umerket lyd, data som kun inkluderer lyd og tekst, data som inkluderer følelser og lyd av høy kvalitet med standard etiketter, og data som inkluderer følelser og lyd av lav kvalitet. Hvert datasett er tydelig definert for å tjene hvert formål og hver eksamenskategori, med totalt mer enn 300 timer på alle datasettene. Dette er et ganske beskjedent antall sammenlignet med standarddatasett for trening av talegjenkjenning, som vanligvis krever opptil 1000–2000 timer eller mer.

Hvert team hadde mindre enn to måneder på seg til å fullføre og sende inn arbeidet sitt, men i realiteten var den faktiske tiden som ble brukt på å undersøke løsninger mye kortere på grunn av mangel på ressurser.

«I år har Viettel AI brukt mye ressurser innen datainfrastruktur på å undersøke nye teknologier samt utvikle produkter, mens talegjenkjenning er en teknologi som krever svært store maskinvareressurser», delte Dang Dinh Son – kunstig intelligens-ingeniør og virtuell assistentplattform i Viettel AI.

bilde 1.jpg
Artificial Intelligence Engineering Group, Virtual Assistant Platform Block, som representerer Viettel AI og deltar i kategorien talegjenkjenning og tale- og følelsesgjenkjenning - VLSP 2023

Stilt overfor situasjonen med lavt datavolum og -kvalitet, bestemte forskerteamet seg umiddelbart for synspunktet om å «bruke alle data uavhengig av lav eller høy kvalitet». For å gjøre dette er det nødvendig å bygge en treningssyklus for å behandle alle data, samt bare én modell for å løse mange forskjellige problemer i stedet for mange modeller.

Resultatene av banebrytende teknologisk mestring

I sammenheng med både mangel på data og mangel på ressurser bestemte forskerteamet seg for å bygge en enkel, ikke massiv, men viktigst av alt, finjustert prosesseringsprosess ned til minste detalj.

Viettels AI-ingeniører studerte nøye den nyeste forskningen fra ledende konferanser og tidsskrifter over hele verden for å finne en tilnærming. Kombinert med databehandlingsmetoder som har vist seg effektive for å trene modellen, bygde forskerteamet en treningssyklus for å behandle alle tilgjengelige data. Syklusen inkluderer tre trinn: bygging av en forhåndstrent modell for å beskrive stemmefunksjoner uten etiketter, finjustering fra den forhåndstrente modellen for to problemer: talegjenkjenning og følelsesgjenkjenning, og inferens.

«Erfaring med å løse problemer med manglende data under utvikling og utrulling av tidligere produkter bidro også betydelig til å hjelpe teamet med å finne en avgjørende metode. Tvert imot har kunnskapen og resultatene fra testen også potensial til å bli brukt umiddelbart på Viettel AI-produkter, så arbeidsprosessen mens testen ble tatt gikk ganske knirkefritt», sa Bui Tien Dat – virtuell assistentplattformingeniør, Viettel AI.

Som et resultat vant Viettel AI ikke bare førstepremien i kategoriene talegjenkjenning og tale- og følelsesgjenkjenning, men oppnådde også en imponerende poengsum på 89,18 % (de neste lagene var henholdsvis 83,40 % og 78,45 %).

Herr Son sa at nøkkelfaktoren ligger i talebehandlingsmodellen spesielt for vietnamesere som Viettel AI har utviklet over lang tid.

«I stedet for å bruke modeller og instruksjoner fra tilgjengelige forskningsresultater, valgte Viettel AI å bygge og utvikle sin egen modell for vietnamesisk talebehandling. Denne modellen oppdateres, optimaliseres kontinuerlig og blir mer og mer effektiv», sa Son.

Ikke bare stopper denne løsningen fra Viettel AI, den vil også være premisset for å oppgradere virtuelle sentralbordprodukter, Viettel virtuell assistent, som hjelper med å identifisere kunders følelser mer nøyaktig i samtaler, og dermed gi tilbakemeldinger eller velge passende nyanser i ord. Dermed vil samtaler mellom mennesker og AI bli mer naturlige, noe som forbedrer brukeropplevelsen. Mange nye bruksområder innen kundeservice åpnes også, for eksempel å bygge et system for automatisk å identifisere kundeklager og klager til sentralbordet for rettidig håndtering eller for å utnytte informasjon.

bilde 2.jpg
Herr Bui Tien Dat – virtuell assistentplattformingeniør, Viettel AI, representerte teamet for å presentere forskningsresultatene på workshopen.

Enhetsrepresentanten sa at Viettel AI vil fortsette å utvikle teknologi, kontinuerlig oppgradere produkter for å øke nøyaktigheten, forbedre brukeropplevelsen og produkteffektiviteten.

Quoc Tuan