A vietnami nyelvi és beszédfeldolgozási (VLSP) verseny a Vietnami nyelvi és beszédfeldolgozási nemzetközi konferencia része, amelyet a Vietnami Információtechnológiai Szövetség egyik ága, a VLSP Klub szervez. A VLSP 2023 10 beszéd- és szövegfeldolgozási versenyt szervez, összehozva a vezető kutatókat, szakértőket és technológiafejlesztő egységeket.
Bár a Viettel AI ez volt a negyedik alkalom, hogy részt vett a versenyen, és korábban háromszor nyert is, a Viettel mérnökei továbbra is számos nehézségbe ütköztek a verseny kategóriáinak struktúrájában bekövetkezett változások miatt.
Pontosabban, a tavalyi évhez képest idén a Beszédfelismerés és az Érzelemfelismerés kategóriákat egy kategóriába vonták össze. A csapatoknak egyszerre két problémát kell megoldaniuk, hogy biztosítsák mind a szöveg, mind a mondat érzelmeinek felismerését, így a munkamennyiség és a nehézség is megduplázódott.
Használj fel minden adatot, legyen az alacsony vagy magas minőségű
Az idei vizsga nemcsak a kategóriák szerkezetét változtatja meg, hanem a modellek nulláról történő felépítésére is összpontosít, korlátozott adatfeltételekkel, beleértve a nyers, címkézetlen és alacsony minőségű adatokat. A vizsga 4 különböző minőségű és formátumú adatcsoportot kínál. Vannak olyan adatok, amelyek csak címkézetlen hangot tartalmaznak, olyan adatok, amelyek csak hangot és szöveget tartalmaznak, olyan adatok, amelyek érzelmeket és hangot tartalmaznak (magas minőségű, standard címkékkel ellátott adatok), valamint olyan adatok, amelyek érzelmeket és hangot tartalmaznak (alacsony minőségű adatok). Minden adathalmaz egyértelműen definiált az adott cél és vizsgakategória kiszolgálására, összesen több mint 300 órát fordítva az összes adathalmazra. Ez meglehetősen szerény szám a beszédfelismerés betanításához használt standard adathalmazokhoz képest, amelyek általában akár 1000-2000 órát vagy többet is igényelnek.
Minden csapatnak kevesebb mint 2 hónapja volt a munkája elkészítésére és beküldésére, de a valóságban a megoldások kutatására fordított tényleges idő sokkal kevesebb volt az erőforrások hiánya miatt.
„Idén a Viettel AI rengeteg számítástechnikai infrastrukturális erőforrást fordított új technológiák kutatására, valamint termékfejlesztésre, míg a beszédfelismerés egy olyan technológia, amely nagyon nagy hardveres erőforrásokat igényel” – osztotta meg Dang Dinh Son úr, a Viettel AI virtuális asszisztens platformjának mesterséges intelligencia mérnöke.
A kis mennyiségű és minőségű adatok körülményeivel szembesülve a kutatócsoport azonnal meghatározta azt a nézőpontot, hogy „minden adatot fel kell használni, függetlenül attól, hogy alacsony vagy magas a minősége”. Ehhez egy olyan betanítási ciklust kell létrehozni, amely az összes adatot feldolgozza, valamint egyetlen modellt kell használni a sok különböző probléma megoldására a sok modell helyett.
Az úttörő technológiai elsajátítás eredményei
Az adat- és erőforráshiány összefüggésében a kutatócsoport úgy döntött, hogy egy egyszerű, nem hatalmas, de ami fontos, a legapróbb részletekig finomhangolt feldolgozási folyamatot épít.
A Viettel mesterséges intelligencia mérnökei gondosan tanulmányozták a világ vezető konferenciáinak és folyóiratainak legújabb kutatásait, hogy megoldást találjanak. A modell betanítására szolgáló, hatékony adatfeldolgozási módszerekkel kombinálva a kutatócsoport egy betanítási ciklust épített ki az összes rendelkezésre álló adat feldolgozására. A ciklus 3 lépésből áll: egy előre betanított modell felépítése a hangjellemzők címkék nélküli leírására, az előre betanított modell finomhangolása két problémára: beszédfelismerés és érzelemfelismerés, valamint következtetés.
„A korábbi termékek fejlesztése és bevezetése során felmerült adathiányos problémák megoldásában szerzett tapasztalatok is jelentősen hozzájárultak ahhoz, hogy a csapat megtalálja a megfelelő módszert. Épp ellenkezőleg, a tesztből származó ismeretek és eredmények azonnal alkalmazhatók a Viettel AI termékekben is, így a teszt alatti munkafolyamat meglehetősen zökkenőmentesen ment” – mondta Bui Tien Dat, a Viettel AI virtuális asszisztens platformmérnöke.
Ennek eredményeként a Viettel AI nemcsak az első díjat nyerte el a Beszédfelismerés és a Beszéd-érzelemfelismerés kategóriákban, hanem lenyűgöző 89,18%-os pontszámot is elért (a következő csapatok 83,40%, illetve 78,45%-ot értek el).
Mr. Son szerint a kulcsfontosságú tényező a kifejezetten vietnami nyelvre kifejlesztett beszédfeldolgozási modellben rejlik, amelyet a Viettel AI hosszú ideje fejlesztett.
„Ahelyett, hogy a rendelkezésre álló kutatási eredményekből származó modelleket és utasításokat használta volna, a Viettel AI úgy döntött, hogy saját modellt épít és fejleszt a vietnami beszédfeldolgozáshoz. Ezt a modellt folyamatosan frissítjük, optimalizáljuk, és egyre hatékonyabbá válik” – mondta Mr. Son.
A Viettel AI megoldása nemcsak a versenytársak leküzdésére törekszik, hanem a virtuális központos termékek, a Viettel virtuális asszisztensek fejlesztésének alapját is képezi majd, segítve az ügyfelek érzelmeinek pontosabb azonosítását a beszélgetések során, ezáltal visszajelzést adva vagy a szavak árnyalatainak megfelelő kiválasztását. Így az emberek és a mesterséges intelligencia közötti beszélgetések természetesebbé válnak, javítva a felhasználói élményt. Számos új ügyfélszolgálati alkalmazás is megnyílik, például egy olyan rendszer kiépítése, amely automatikusan azonosítja az ügyfélpanaszokat és a központ felé történő panaszokat az időben történő feldolgozás vagy az információk felhasználása érdekében.
Az egység képviselője elmondta, hogy a Viettel AI továbbra is fejleszti a technológiát, folyamatosan frissíti termékeit a pontosság növelése, a felhasználói élmény és a termékhatékonyság javítása érdekében.
Quoc Tuan
[hirdetés_2]
Forrás






Hozzászólás (0)