Der Wettbewerb „Vietnamesische Sprach- und Sprachverarbeitung“ (VLSP) ist Teil der jährlichen Internationalen Konferenz für Vietnamesische Sprach- und Sprachverarbeitung, die vom VLSP-Club, einem Zweig der Vietnam Information Technology Association, organisiert wird. Die VLSP 2023 umfasst zehn Wettbewerbe zur Sprach- und Textverarbeitung und bringt führende Forscher, Experten und Technologieentwicklungseinrichtungen zusammen.

Obwohl Viettel AI bereits zum vierten Mal an dem Wettbewerb teilnahm und zuvor drei Mal gewonnen hatte, stießen die Ingenieure von Viettel aufgrund von Änderungen in der Wettbewerbskategorienstruktur auf viele Schwierigkeiten.

Konkret wurden im Vergleich zum Vorjahr die Kategorien Spracherkennung und Emotionserkennung in diesem Jahr zu einer Kategorie zusammengelegt. Die Teams müssen zwei Probleme gleichzeitig lösen, um sowohl den Text als auch die Emotion des Satzes zu erkennen. Dadurch haben sich Arbeitsaufwand und Schwierigkeitsgrad verdoppelt.

Nutzen Sie alle Daten, egal ob von geringer oder hoher Qualität.

Die diesjährige Prüfung ändert nicht nur die Kategorienstruktur, sondern legt auch Wert auf die Entwicklung von Modellen von Grund auf mit begrenzten Daten, darunter Rohdaten, ungelabelte Daten und Daten geringer Qualität. Die Prüfung stellt vier Datengruppen mit unterschiedlicher Qualität und Form bereit: Daten mit ungelabeltem Audio, Daten mit Audio und Text, Daten mit Emotionen und Audio (hohe Qualität, Standardlabels) sowie Daten mit Emotionen und Audio (niedrige Qualität). Jeder Datensatz ist klar definiert und dient dem jeweiligen Zweck und der jeweiligen Prüfungskategorie. Insgesamt wurden über 300 Stunden für die Bearbeitung aller Datensätze aufgewendet. Dies ist vergleichsweise wenig im Vergleich zu Standarddatensätzen für das Training von Spracherkennungsmodellen, die üblicherweise 1.000 bis 2.000 Stunden oder mehr erfordern.

Jedes Team hatte weniger als zwei Monate Zeit, um seine Arbeit fertigzustellen und einzureichen, doch in Wirklichkeit wurde aufgrund fehlender Ressourcen viel weniger Zeit für die Recherche nach Lösungen aufgewendet.

„In diesem Jahr hat Viettel AI viele Ressourcen der Recheninfrastruktur für die Erforschung neuer Technologien sowie für die Entwicklung von Produkten aufgewendet, wobei die Spracherkennung eine Technologie ist, die sehr große Hardware-Ressourcen erfordert“, teilte Herr Dang Dinh Son - Ingenieur für Künstliche Intelligenz, Plattform für Virtuelle Assistenten, Viettel AI mit.

Foto 1.jpg
Die Gruppe für Künstliche Intelligenzentwicklung, Bereich Virtuelle Assistentenplattform, vertritt Viettel AI und nimmt an der Kategorie Spracherkennung und Spracherkennung von Emotionen (VLSP 2023) teil.

Angesichts der geringen Datenmenge und -qualität entschied sich das Forschungsteam umgehend für den Ansatz, „alle Daten unabhängig von ihrer Qualität zu nutzen“. Dazu ist es notwendig, einen Trainingszyklus zu entwickeln, der alle Daten verarbeitet, und anstelle vieler Modelle nur ein einziges Modell zur Lösung vieler verschiedener Probleme zu verwenden.

Die Ergebnisse bahnbrechender Technologiebeherrschung

Angesichts des Mangels an Daten und Ressourcen entschied sich das Forschungsteam für die Entwicklung eines einfachen, nicht massiven, aber vor allem bis ins kleinste Detail fein abgestimmten Verarbeitungsprozesses.

Die KI-Ingenieure von Viettel analysierten sorgfältig die neuesten Forschungsergebnisse führender Konferenzen und Fachzeitschriften weltweit, um einen geeigneten Ansatz zu finden. In Kombination mit bewährten Datenverarbeitungsmethoden für das Training des Modells entwickelte das Forschungsteam einen Trainingszyklus zur Verarbeitung aller verfügbaren Daten. Dieser Zyklus umfasst drei Schritte: die Erstellung eines vortrainierten Modells zur Beschreibung von Sprachmerkmalen ohne Labels, die Feinabstimmung dieses Modells für zwei Anwendungsfälle – Spracherkennung und Emotionserkennung – sowie die Inferenz.

„Die Erfahrungen aus der Lösung von Problemen mit fehlenden Daten während der Entwicklung und des Einsatzes früherer Produkte trugen maßgeblich dazu bei, dass das Team eine zielführende Methode fand. Umgekehrt lassen sich die im Test gewonnenen Erkenntnisse und Ergebnisse potenziell direkt in Viettel AI-Produkte integrieren, sodass die Durchführung des Tests reibungslos verlief“, sagte Bui Tien Dat, Virtual Assistant Platform Engineer bei Viettel AI.

Als Ergebnis gewann Viettel AI nicht nur den ersten Preis in den Kategorien Spracherkennung und Spracherkennung von Emotionen, sondern erzielte auch eine beeindruckende Punktzahl von 89,18 % (die nächsten Teams erreichten 83,40 % bzw. 78,45 %).

Herr Son sagte, der Schlüsselfaktor liege in dem speziell für Vietnamesisch entwickelten Sprachverarbeitungsmodell von Viettel AI, das schon seit langer Zeit entwickelt wurde.

„Anstatt auf Modelle und Anleitungen aus verfügbaren Forschungsergebnissen zurückzugreifen, entschied sich Viettel AI dafür, ein eigenes Modell für die vietnamesische Sprachverarbeitung zu entwickeln. Dieses Modell wird ständig aktualisiert, optimiert und dadurch immer effektiver“, sagte Herr Son.

Die KI-Lösung von Viettel beschränkt sich nicht nur auf den Wettbewerb, sondern bildet die Grundlage für die Weiterentwicklung von virtuellen Telefonanlagen und des virtuellen Assistenten von Viettel. Sie hilft dabei, die Emotionen der Kunden im Gespräch präziser zu erkennen und so Feedback zu geben oder die passenden Formulierungen zu wählen. Dadurch wird die Kommunikation zwischen Mensch und KI natürlicher und das Nutzererlebnis verbessert. Es eröffnen sich zahlreiche neue Anwendungsmöglichkeiten im Kundenservice, beispielsweise die Entwicklung eines Systems zur automatischen Identifizierung von Kundenbeschwerden und deren Weiterleitung an die Telefonanlage, um eine zeitnahe Bearbeitung zu gewährleisten oder die gewonnenen Informationen zu nutzen.

Foto 2.jpg
Herr Bui Tien Dat - Virtual Assistant Platform Engineer, Viettel AI vertrat das Team bei der Präsentation der Forschungsergebnisse auf dem Workshop.

Der Unternehmenssprecher erklärte, dass Viettel AI auch weiterhin Technologien entwickeln und Produkte ständig verbessern werde, um die Genauigkeit zu erhöhen, das Benutzererlebnis zu verbessern und die Produkteffizienz zu steigern.

Quoc Tuan