Als Ho Minh Duc die Wartehalle des Flughafens betrat, inmitten des geschäftigen Treibens der von einer Geschäftsreise zurückkehrenden Menschen, hielt er für einen Moment inne, als er eine vertraute, sanfte Frauenstimme eine Durchsage über die Lautsprecheranlage verlesen hörte.
Die Mitarbeiter von Vbee arbeiten in der Firmenzentrale in Hanoi – Foto: NVCC
Er lächelte erleichtert und glücklich, als hätte er einen Verwandten getroffen. Dieser „Verwandte“ war eine der 20 KI-Stimmen, mit denen Duc und das Vbee-Team sich monatelang intensiv auseinandergesetzt hatten. Sie hatten all ihr Herzblut in jede einzelne Klangzeile gesteckt und auf jede Nuance der Stimme geachtet, um sie natürlicher und menschenähnlicher klingen zu lassen.
holpriger Start
Ich weiß nicht, wie oft CEO Ho Minh Duc und CTO Nguyen Thi Thu Trang – die beiden Gründer der Vbee Data Solutions and Services Joint Stock Company – ein solches Gefühl der Freude und des Stolzes schon empfunden haben.
Sie begegneten „besonderen Bekannten“ in den unterschiedlichsten Situationen: klaren Stimmen aus den Lautsprecheranlagen der Schulen, warmen Stimmen in Gebäuden oder professionellen Stimmen aus den automatischen Telefonzentralen vieler Unternehmen.
Die Ideen von Vbee sind nicht mehr nur das Ergebnis von Algorithmen und Codes, sondern erwachen tatsächlich zum Leben und leisten stille, aber wirkungsvolle Beiträge zu vielen Bereichen.
Von Bucheinleitungen über Filmsynchronisation bis hin zu automatisierten Callcenter-Ansagen hat Vbee der Sprachtechnologie neues Leben eingehaucht.
Als „Mutter“ der Kerntechnologie der Sprachsynthese strebt Dr. Nguyen Thi Thu Trang stets danach, Produkte der vietnamesischen Sprachsynthesetechnologie – jener Technologie, der sie seit ihrer Doktorarbeit an der Universität Paris 11 viel Mühe gewidmet hat – für den realen Anwender zugänglich zu machen.
Vbees Anfänge waren holprig. Obwohl das Tool in den ersten zwei Jahren kostenlos war, fand seine Text-to-Speech-Funktion (TTS) nur wenige Nutzer. Doch dann brachte COVID-19 einen unerwarteten Wendepunkt.
Angesichts der strengen Abstandsregeln mussten Unternehmen wie FE Credit, Momo, Viet Credit und Sacombank Wege finden, um Tausende von Kunden zu erreichen. Hier bot sich Vbee die Chance: Von Mahnungen bis hin zu automatischen Antworten – ihre Produkte erwiesen sich schnell als optimale Lösung. Damals generierten virtuelle Assistenten und virtuelle Callcenter bis zu 80 % des Umsatzes von Vbee.
Nach dem Ende der Pandemie und dem Einbruch der Weltwirtschaft stand Vbee vor einer neuen Herausforderung. Der Trend zu generativer KI (GenAI) und digitalen Inhalten belebte das TTS-Tool neu. Heute sind die KI-Stimmen von Vbee allgegenwärtig – von TikTok über YouTube bis Facebook.
„Ein Großteil der heutigen TTS-Inhalte wird von uns bereitgestellt“, teilte Herr Ho Minh Duc stolz mit. Aktuell hat Vbee über zwei Millionen aktive Nutzer, und diese Zahl wächst weiterhin stetig um 20 % pro Monat.
Vbee hat über 20 hochwertige Unternehmensstimmen trainiert, und wenn man die benutzerdefinierten Stimmen mitzählt, haben sie über 200 verschiedene KI-Stimmen erstellt.
Dank der neuen Spracherkennungstechnologie, die kürzlich erforscht und getestet wurde, benötigt eine neue Stimme jetzt nur noch 3 Minuten aufgezeichnete Daten zum Trainieren, anstatt wie vor zwei Jahren 4 bis Dutzende von Stunden an Aufnahmen.
CEO Ho Minh Duc und Chief Technology Officer Nguyen Thi Thu Trang – zwei Gründer der Vbee Data Solutions and Services Joint Stock Company – Foto: NVCC
„Wir verstehen Vietnamesisch besser.“
Im Wettlauf um die Sprachsynthesetechnologie sieht CEO Ho Minh Duc einen Zeitpunkt kommen, an dem die Bemühungen um technologische Innovationen allmählich an ihre Grenzen stoßen werden.
Laut seinen Angaben entwickelt Vbee nicht nur Kerntechnologien für die vietnamesische Sprachverarbeitung, sondern baut auch ein Technologiesystem auf, das in der Lage ist, die vietnamesische Sprache tiefgründig zu verstehen – mit all den Feinheiten, Tönen und der einzigartigen Kultur, die nur wahre Vietnamesen vollständig erfassen können.
Als Marktführer im Bereich der Text-to-Speech-Lösungen (TTS) in Vietnam sind die beiden Geschäftsführer von Vbee überzeugt, dass ihr Tool zum Standard für KI-gestützte Sprachausgabe für Vietnamesisch geworden ist. Die Nutzer schätzen nicht nur die Genauigkeit, sondern spüren auch die Emotionen in jeder von Vbee entwickelten Stimme.
Im Vietnamesischen beispielsweise hat allein das Wort „Gasse“ je nach Region viele verschiedene Bezeichnungen wie „hem“, „kiem“, „xec“ – jedes Wort birgt eine andere Nuance, die die KI verstehen muss.
Um dies zu erreichen, hat Vbee stark in die Sammlung von Beispieldatensätzen sowie in leistungsstarke Serversysteme für das KI-Training investiert.
„Um der KI zu helfen, jede regionale Nuance richtig zu verstehen und zu verarbeiten, mussten wir unzählige Beispielsätze erstellen, und die Kosten für den Verarbeitungsserver waren ebenfalls sehr hoch“, teilte CEO Ho Minh Duc mit.
Dr. Nguyen Thi Thu Trang forscht seit über 15 Jahren an der Kerntechnologie von Vbee für die Sprachausgabe, um die einzigartigen Töne und die Grammatik des Vietnamesischen zu entschlüsseln. Für sie ist ihre Muttersprache eine subtile Welt voller ausdrucksstarker Nuancen.
„Meine vietnamesische Sprache ist sehr komplex und interessant; die Töne sind der schwierigste Punkt und unterscheiden sich von vielen anderen verbreiteten Sprachen der Welt. Je besser ich die Sprache verstehe, desto genauer wird mein Modell sein“, erklärte sie.
Vbee behauptet zunehmend, dass sie in der Technologieära ein unverzichtbarer Bestandteil von Werkzeugen und Geräten mit integrierter vietnamesischer Sprachverarbeitungssoftware sein werden.
In jedem Wort, in jeder Stimme erforscht und entwickelt das Vbee-Team nicht nur Technologie, sondern strebt auch danach, in seinen KI-Stimmen eine wahrhaft "vietnamesische Emotion" zu erzeugen.
Der Name Vbee ist eine Abkürzung des vietnamesischen Ausdrucks „Sei deine Augen“ und entspringt meinem ursprünglichen Wunsch, ein Hilfsmittel zu entwickeln, das Sehbehinderten als „Augen“ dient. Angesichts des aktuellen Entwicklungstrends, bei dem viele Menschen dem Hören mehr Bedeutung beimessen als dem Sehen, glauben wir jedoch, dass Vbee auch für alle anderen Menschen zu einem „Augen“ werden kann.
Dr. Nguyen Thi Thu Trang (Dozentin an der Fakultät für Informationstechnologie und Kommunikation der Technischen Universität Hanoi, Gründerin und Technologiedirektorin der Firma Vbee)
Treffen von Hörbuchbegeisterten
Vbee entstand aus der Beziehung zwischen Dr. Nguyen Thi Thu Trang und der Blinden-Community. Bereits während ihres Studiums engagierte sie sich in der Aufnahme von Hörbüchern und der Entwicklung eines vietnamesischen Vorleseprogramms zur Unterstützung blinder Menschen.
Diese Erfahrungen inspirierten sie zur Entwicklung einer vietnamesischen Lesesoftware – dem Vorläufer von Vbee. 2018 gründete sie zusammen mit Herrn Ho Minh Duc – einem Kommilitonen an der Technischen Universität Hanoi, der Erfahrung aus dem Projekt Socbay.com und der Digitalisierung von Hörbüchern mitbrachte – Vbee, ein Pionierunternehmen im Bereich der Text-to-Speech-Technologie in Vietnam.
Vbees herausragende Leistungen
- Erster Preis der Qualcomm Vietnam Innovation Challenge 2024
- Sonderpreis des Tuoi Tre Start-up Award 2023
- Gewinner-Startup im Grab Venture Ignite 2020 Startup-Beschleunigungsprogramm
- Erster Preis beim Wettbewerb „Vietnamesisches Talent 2018“, zweiter Preis beim Wettbewerb „Vietnamesisches Talent 2020“
- Zertifikat für vietnamesische Kerntechnologie im Nationalen Programm zur digitalen Transformation 2025–2030 des Ministeriums für Information und Kommunikation
- Ausgezeichnetes Projekt beim Vietnam Digital Media Award 2018 und beim Vingroup Fund 2019.
Regionale Vision
Nachdem Vbee seine Position auf dem vietnamesischen Markt gefestigt hat, strebt das Unternehmen eine Expansion nach Südostasien an und plant, seine TTS-Technologie bis 2026 in Länder wie Laos, Thailand, Kambodscha und die Philippinen einzuführen.
Laut Dr. Nguyen Thi Thu Trang wird der rasante technologische Fortschritt heutzutage mit dem Aufkommen mehrsprachiger Modelle die Entwicklung von TTS-Tools für andere Sprachen erleichtern.
Derzeit forscht sie an Sprachtechnologien für Thai, Chinesisch und Englisch und eröffnet damit neue Wege für Vbee auf dem internationalen Markt.
Quelle: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm






Kommentar (0)