Konkurs przetwarzania języka i mowy wietnamskiej (VLSP) jest częścią corocznej Międzynarodowej Konferencji nt. przetwarzania języka i mowy wietnamskiej, organizowanej przez Klub VLSP, oddział Wietnamskiego Stowarzyszenia Technologii Informacyjnych. VLSP 2023 organizuje 10 konkursów z zakresu przetwarzania mowy i tekstu, gromadząc czołowych badaczy, ekspertów i jednostki rozwoju technologii.

Mimo że był to czwarty raz, kiedy Viettel AI brał udział w konkursie i wygrał już trzy razy, inżynierowie Viettel napotkali wiele trudności z powodu zmian w strukturze kategorii konkursowych.

W porównaniu z ubiegłym rokiem, kategorie „Rozpoznawanie mowy” i „Rozpoznawanie emocji” zostały w tym roku połączone w jedną. Zespoły muszą rozwiązać dwa zadania jednocześnie, aby zapewnić rozpoznanie zarówno tekstu, jak i emocji zawartych w zdaniu. Zarówno nakład pracy, jak i poziom trudności podwoiły się.

Wykorzystaj wszystkie dane, niezależnie od tego, czy są niskiej, czy wysokiej jakości

Tegoroczny egzamin nie tylko zmienia strukturę kategorii, ale również koncentruje się na budowaniu modeli od podstaw z ograniczonymi danymi, w tym danymi surowymi, nieoznakowanymi i niskiej jakości. Egzamin obejmuje 4 grupy danych o różnej jakości i formie. Są to dane zawierające wyłącznie nieoznakowany dźwięk, dane zawierające wyłącznie dźwięk i tekst, dane zawierające emocje i dźwięk o wysokiej jakości i standardowych etykietach oraz dane zawierające emocje i dźwięk o niskiej jakości. Każdy zestaw danych jest jasno zdefiniowany pod kątem każdego celu i kategorii egzaminu, a łącznie na wszystkie zestawy danych przeznaczono ponad 300 godzin. Jest to dość skromna liczba w porównaniu ze standardowymi zestawami danych do szkolenia z rozpoznawania mowy, które zazwyczaj wymagają od 1000 do 2000 godzin lub więcej.

Każdy zespół miał mniej niż 2 miesiące na ukończenie i oddanie swojej pracy, ale w rzeczywistości czas poświęcony na poszukiwanie rozwiązań był znacznie krótszy ze względu na brak zasobów.

„W tym roku Viettel AI przeznaczył znaczną część zasobów infrastruktury obliczeniowej na badania nad nowymi technologiami oraz rozwój produktów, podczas gdy rozpoznawanie mowy to technologia wymagająca bardzo dużych zasobów sprzętowych” – powiedział Dang Dinh Son, inżynier ds. sztucznej inteligencji, platforma asystentów wirtualnych, Viettel AI.

zdjęcie 1.jpg
Grupa Inżynierii Sztucznej Inteligencji, Blok Platformy Asystentów Wirtualnych, reprezentująca Viettel AI uczestnicząca w kategorii Rozpoznawanie mowy i rozpoznawanie emocji mowy - VLSP 2023

W obliczu niskiej objętości i niskiej jakości danych, zespół badawczy natychmiast przyjął stanowisko „konieczności wykorzystania wszystkich danych, niezależnie od ich niskiej lub wysokiej jakości”. Aby to osiągnąć, konieczne jest zbudowanie cyklu szkoleniowego do przetwarzania wszystkich danych oraz jednego modelu do rozwiązywania wielu różnych problemów, zamiast wielu modeli.

Wyniki pionierskiego opanowania technologii

W obliczu niedoboru danych i zasobów zespół badawczy zdecydował się na stworzenie prostego, nie ogromnego, ale co ważniejsze, dopracowanego w najdrobniejszych szczegółach procesu przetwarzania.

Inżynierowie Viettel AI dokładnie przeanalizowali najnowsze badania z wiodących konferencji i czasopism na całym świecie, aby znaleźć odpowiednie podejście. W połączeniu z metodami przetwarzania danych, które okazały się skuteczne, zespół badawczy opracował cykl treningowy, który przetwarza wszystkie dostępne dane. Cykl obejmuje 3 kroki: zbudowanie wstępnie wytrenowanego modelu opisującego cechy głosu bez etykiet, dostrojenie wstępnie wytrenowanego modelu do dwóch problemów: rozpoznawania mowy i rozpoznawania emocji, oraz wnioskowanie.

„Doświadczenie zdobyte w rozwiązywaniu problemów z brakiem danych podczas opracowywania i wdrażania poprzednich produktów również znacząco pomogło zespołowi w znalezieniu decydującej metody. Wręcz przeciwnie, wiedza i wyniki uzyskane w teście mają potencjał, aby od razu zastosować je w produktach Viettel AI, więc praca nad testem przebiegła bardzo sprawnie” – powiedział Bui Tien Dat, inżynier platformy asystentów wirtualnych w Viettel AI.

W rezultacie Viettel AI nie tylko zdobył pierwszą nagrodę w kategoriach Rozpoznawanie mowy i Rozpoznawanie emocji w mowie, ale także osiągnął imponujący wynik 89,18% (kolejne zespoły uzyskały odpowiednio 83,40% i 78,45%).

Pan Son powiedział, że kluczowym czynnikiem jest model przetwarzania mowy specjalnie dla języka wietnamskiego, który Viettel AI rozwija od dawna.

„Zamiast korzystać z modeli i instrukcji pochodzących z dostępnych wyników badań, Viettel AI zdecydował się na zbudowanie i rozwinięcie własnego modelu przetwarzania mowy wietnamskiej. Model ten jest stale aktualizowany, optymalizowany i staje się coraz skuteczniejszy” – powiedział pan Son.

Rozwiązanie Viettel AI nie tylko wyprzedza konkurencję, ale stanie się podstawą do modernizacji wirtualnych central telefonicznych, wirtualnych asystentów Viettel, pomagając precyzyjniej rozpoznawać emocje klientów w rozmowach, udzielając informacji zwrotnych lub dobierając odpowiednie niuanse słowne. Dzięki temu rozmowy między ludźmi a sztuczną inteligencją staną się bardziej naturalne, co poprawi komfort użytkowania. Pojawi się również wiele nowych zastosowań w obsłudze klienta, takich jak stworzenie systemu automatycznej identyfikacji skarg klientów i reklamacji kierowanych do centrali telefonicznej w celu terminowego rozpatrzenia lub wykorzystania informacji.

zdjęcie 2.jpg
Pan Bui Tien Dat – inżynier platformy asystentów wirtualnych w Viettel AI reprezentował zespół i przedstawił wyniki badań na warsztatach.

Przedstawiciel jednostki powiedział, że Viettel AI będzie nadal rozwijać technologię i stale udoskonalać produkty w celu zwiększenia dokładności, poprawy doświadczeń użytkowników i wydajności produktów.

Quoc Tuan