Společnost Viettel AI získala v soutěži o jazyk a zpracování řeči dvě ocenění

Soutěž ve vietnamském jazyce a zpracování řeči (VLSP) je součástí každoroční Mezinárodní konference o vietnamském jazyce a zpracování řeči, kterou pořádá klub VLSP, pobočka Vietnamské asociace informačních technologií. VLSP 2023 pořádá 10 soutěží ve zpracování řeči a textu, které sdružují přední výzkumníky, odborníky a jednotky technologického vývoje.

Přestože se společnost Viettel AI soutěže zúčastnila již počtvrté a předtím třikrát vyhrála, inženýři společnosti Viettel se stále potýkali s mnoha obtížemi kvůli změnám ve struktuře soutěžních kategorií.

Konkrétně se letos oproti loňskému roku kategorie Rozpoznávání řeči a Rozpoznávání emocí sloučily do jedné kategorie. Týmy musí řešit dva problémy současně, aby zajistily rozpoznání textu i emocí ve větě, pracovní zátěž i obtížnost se zdvojnásobily.

Využijte všechna data, ať už nízké nebo vysoké kvality

Letošní zkouška se nejen mění ve struktuře kategorií, ale zaměřuje se také na vytváření modelů od nuly s omezenými datovými podmínkami, včetně nezpracovaných, neoznačených a nekvalitních dat. Zkouška nabízí 4 skupiny dat s různou kvalitou a formou. Existují data, která zahrnují pouze neoznačený zvuk, data, která zahrnují pouze zvuk a text, data, která zahrnují emoce a zvuk, vysokou kvalitu, standardní popisky a data, která zahrnují emoce a zvuk, nízkou kvalitu. Každá datová sada je jasně definována tak, aby sloužila každému účelu a kategorii zkoušky, s celkovým počtem více než 300 hodin na všechny datové sady. To je poměrně skromné číslo ve srovnání se standardními datovými sadami pro trénování rozpoznávání řeči, které obvykle vyžadují až 1 000–2 000 hodin nebo více.

Každý tým měl na dokončení a odevzdání své práce méně než 2 měsíce, ale ve skutečnosti byl skutečný čas strávený hledáním řešení mnohem kratší kvůli nedostatku zdrojů.

„Společnost Viettel AI letos věnovala spoustu zdrojů výpočetní infrastruktury výzkumu nových technologií a vývoji produktů, zatímco rozpoznávání řeči je technologie, která vyžaduje velmi rozsáhlé hardwarové prostředky,“ sdělil pan Dang Dinh Son – inženýr umělé inteligence, platforma virtuálních asistentů ve společnosti Viettel AI.

fotografie 1.jpg — Skupina pro inženýrství umělé inteligence, blok platformy virtuálních asistentů, zastupující společnost Viettel AI v kategorii rozpoznávání řeči a rozpoznávání řečových emocí - VLSP 2023

Vzhledem k nízkému objemu a kvalitě dat se výzkumný tým okamžitě zaměřil na hledisko „nutnost využít všechna data bez ohledu na jejich kvalitu“. K tomu je nutné vytvořit trénovací cyklus pro zpracování všech dat a zároveň použít pouze jeden model pro řešení mnoha různých problémů namísto mnoha modelů.

Výsledky průkopnického technologického zvládnutí

Vzhledem k nedostatku dat i zdrojů se výzkumný tým rozhodl vytvořit jednoduchý, ne rozsáhlý, ale co je důležité, jemně vyladěný proces zpracování do nejmenších detailů.

Inženýři z Viettelu, kteří se zabývají umělou inteligencí, pečlivě prostudovali nejnovější výzkum z předních konferencí a časopisů po celém světě, aby našli vhodné řešení. V kombinaci s metodami zpracování dat pro trénování modelu, které se osvědčily, výzkumný tým vytvořil trénovací cyklus pro zpracování všech dostupných dat. Cyklus zahrnuje 3 kroky: vytvoření předtrénovaného modelu pro popis hlasových charakteristik bez popisků, jemné doladění předtrénovaného modelu pro dva problémy: rozpoznávání řeči a rozpoznávání emocí a inferenci.

„Zkušenosti s řešením problémů s nedostatkem dat během vývoje a nasazení předchozích produktů také významně přispěly k nalezení rozhodné metody týmu. Naopak, znalosti a výsledky získané z testu mají potenciál být okamžitě aplikovány i na produkty Viettel AI, takže proces práce během testu proběhl poměrně hladce,“ řekl pan Bui Tien Dat - platformový inženýr virtuálních asistentů ve společnosti Viettel AI.

Díky tomu Viettel AI nejenže získala první cenu v kategoriích Rozpoznávání řeči a Rozpoznávání řečových emocí, ale také dosáhla působivého skóre 89,18 % (další týmy měly 83,40 % a 78,45 %).

Pan Son uvedl, že klíčovým faktorem je model zpracování řeči, který společnost Viettel AI dlouhodobě vyvíjí speciálně pro vietnamštinu.

„Místo použití modelů a instrukcí z dostupných výsledků výzkumu se společnost Viettel AI rozhodla vytvořit a vyvinout vlastní model pro zpracování vietnamské řeči. Tento model je neustále aktualizován, optimalizován a stává se stále efektivnějším,“ řekl pan Son.

Toto řešení od Viettel AI se nezastaví jen u konkurence, ale bude také základem pro modernizaci produktů virtuálních ústředen, virtuálních asistentů Viettel, kteří pomohou přesněji identifikovat emoce zákazníků v konverzacích, a tím poskytovat zpětnou vazbu nebo volit vhodné nuance slov. Konverzace mezi lidmi a AI se tak stanou přirozenějšími, což zlepší uživatelský zážitek. Otevírá se také mnoho nových aplikací v oblasti péče o zákazníky, jako je budování systému pro automatickou identifikaci stížností zákazníků a stížností na ústřednu pro včasné vyřízení nebo využití informací.

fotografie 2.jpg — Tým na workshopu prezentoval výsledky výzkumu pan Bui Tien Dat - inženýr platformy virtuálního asistenta ze společnosti Viettel AI.

Zástupce jednotky uvedl, že společnost Viettel AI bude i nadále vyvíjet technologie, neustále vylepšovat produkty s cílem zvýšit přesnost, zlepšit uživatelskou zkušenost a efektivitu produktů.

Quoc Tuan

Zdroj