Al entrar al vestíbulo del aeropuerto, en medio del bullicio de personas que regresaban de un viaje de negocios, Ho Minh Duc se detuvo unos segundos cuando escuchó una voz femenina familiar y amable que leía un anuncio en el sistema.
El personal de Vbee trabaja en la sede de la empresa en Hanoi - Foto: NVCC
Sonrió, aliviado y feliz como si hubiera conocido a un familiar. Ese "familiar" era una de las 20 voces de IA con las que Duc y el equipo de Vbee habían "comido y dormido" durante muchos días y meses, poniendo todo su corazón en cada línea de sonido, cuidando cada matiz de la voz para hacerla más natural y humana.
Inicio accidentado
No sé cuántas veces el CEO Ho Minh Duc y la CTO Nguyen Thi Thu Trang, los dos fundadores de Vbee Data Solutions and Services Joint Stock Company, han experimentado tal sentimiento de alegría y orgullo.
Se encontraron con "conocidos especiales" en muchas situaciones diferentes: voces claras en los altavoces de la escuela, voces cálidas en los edificios o voces profesionales en las centralitas automáticas de muchas empresas.
Las ideas de Vbee ya no son sólo el resultado de algoritmos y códigos, sino que están entrando en la vida, haciendo contribuciones silenciosas pero poderosas en muchos campos.
Desde introducciones de libros y doblajes de películas hasta anuncios automatizados en centros de llamadas, Vbee le da nueva vida a la tecnología de voz.
Como "madre" de la tecnología central TTS, la Dra. Nguyen Thi Thu Trang siempre aspira a acercar los productos de la tecnología de síntesis de voz vietnamita (la tecnología a la que ha dedicado mucho esfuerzo desde su tesis doctoral en la Universidad París 11) a los usuarios reales.
Los inicios de Vbee fueron difíciles. A pesar de ser gratuita durante los dos primeros años, su herramienta de conversión de texto a voz (TTS) atrajo solo a un público reducido. Pero entonces la COVID-19 se convirtió en un punto de inflexión inesperado.
Ante las estrictas regulaciones de distanciamiento social, empresas como FE Credit, Momo, Viet Credit, Sacombank ... tuvieron que encontrar maneras de llegar a miles de clientes. Fue entonces cuando Vbee tuvo la oportunidad: desde recordatorios de deuda hasta respuestas automáticas, sus productos se convirtieron rápidamente en la solución óptima. En aquel entonces, los asistentes virtuales y los centros de llamadas virtuales representaban hasta el 80% de los ingresos de Vbee.
Cuando la pandemia terminó y la economía mundial se desplomó, Vbee se enfrentó a un nuevo desafío. La ola de IA generativa (GenAI) y las tendencias de contenido digital revitalizaron la herramienta TTS. Hoy, desde TikTok hasta YouTube y Facebook, las voces de IA de Vbee están en todas partes.
"Actualmente ofrecemos una gran cantidad de contenido TTS", compartió con orgullo el Sr. Ho Minh Duc. Actualmente, el número de usuarios reales de Vbee ha superado los 2 millones, y esta cifra sigue aumentando a un ritmo constante del 20 % mensual.
Vbee ha entrenado más de 20 voces corporativas de alta calidad y, si cuenta las voces personalizadas, han creado más de 200 voces de IA diferentes.
Con la nueva tecnología de transcripción de voz que se investigó y probó recientemente, una nueva voz ahora solo necesita 3 minutos de datos grabados para entrenarse en lugar de 4 a docenas de horas de grabación como hace dos años.
El director ejecutivo, Ho Minh Duc, y la directora de tecnología, Nguyen Thi Thu Trang, dos fundadores de Vbee Data Solutions and Services Joint Stock Company. Foto: NVCC
"Entendemos mejor el vietnamita"
En la carrera por la tecnología de síntesis de voz, el director ejecutivo Ho Minh Duc prevé un momento en el que los esfuerzos de innovación tecnológica alcanzarán gradualmente sus límites.
Según él, Vbee no sólo está desarrollando tecnología central para procesar el habla vietnamita, sino que también ha estado construyendo un sistema tecnológico capaz de comprender profundamente el idioma vietnamita, con todas las sutilezas, tonos y cultura única que sólo los verdaderos vietnamitas pueden comprender completamente.
Como empresa líder en el mercado de texto a voz (TTS) en Vietnam, los dos líderes de Vbee creen que su herramienta se ha convertido en el estándar para la lectura de voz con IA en vietnamita. Los usuarios no solo aprecian la precisión, sino que también perciben la emoción en cada voz desarrollada por Vbee.
En vietnamita, por ejemplo, la palabra "callejón" tiene muchos nombres diferentes según la región, como "hèm", "kiệt", "xếc"; cada palabra tiene un matiz diferente que la IA necesita comprender.
Para lograrlo, Vbee ha invertido mucho en la recopilación de conjuntos de datos de muestra, así como en potentes sistemas de servidores para el entrenamiento de IA.
"Para ayudar a la IA a comprender y procesar correctamente cada matiz regional, tuvimos que crear innumerables conjuntos de muestras, y el costo del servidor de procesamiento también fue muy alto", compartió el director ejecutivo, Ho Minh Duc.
La Dra. Nguyen Thi Thu Trang ha dedicado más de 15 años a investigar la tecnología TTS de Vbee para decodificar los tonos y la gramática únicos del vietnamita. Para ella, su lengua materna es un mundo sutil lleno de matices expresivos.
"Mi vietnamita es muy complejo e interesante; sus tonos son los más difíciles y diferentes a los de muchos otros idiomas populares del mundo. Cuanto más lo entienda, más preciso será mi modelo", explicó.
Vbee está afirmando gradualmente que será una parte indispensable de las herramientas y dispositivos con software de procesamiento de idioma vietnamita integrado en la era de la tecnología.
En cada palabra, en cada voz, el equipo de Vbee no solo investiga y desarrolla tecnología, sino que también se esfuerza por crear una verdadera "emoción vietnamita" en sus voces de IA.
El nombre Vbee es una abreviatura de la frase "Sé tus ojos en vietnamita", que surge de mi deseo inicial de crear una herramienta que se convirtiera en los ojos de las personas con discapacidad visual. Pero con la tendencia actual de desarrollo, donde muchas personas prefieren escuchar más que ver, creemos que Vbee también se convertirá en los ojos de todos.
Dra. Nguyen Thi Thu Trang (Profesora de la Facultad de Tecnología de la Información de la Universidad de Ciencia y Tecnología de Hanói, fundadora y directora tecnológica de Vbee Company)
Encuentro de amantes de los audiolibros
Vbee nació de la relación entre la Dra. Nguyen Thi Thu Trang y la comunidad de personas ciegas. Desde su época de estudiante, ha participado en la grabación de audiolibros y en el desarrollo de un lector vietnamita para apoyar a las personas ciegas.
Estas experiencias la inspiraron a desarrollar un software de lectura vietnamita, predecesor de Vbee. En 2018, ella y el Sr. Ho Minh Duc, compañero de clase en la Universidad de Ciencia y Tecnología de Hanói con experiencia en el proyecto Socbay.com y la digitalización de audiolibros, fundaron Vbee, una empresa pionera en el campo de la conversión de texto a voz en Vietnam.
Logros destacados de Vbee
- Primer premio del Qualcomm Vietnam Innovation Challenge 2024
- Premio Especial Tuoi Tre Start-up Award 2023
- Startup ganadora en el programa acelerador Grab Venture Ignite 2020
- Primer premio del Talento Vietnamita 2018, segundo premio del Talento Vietnamita 2020
- Certificado de Tecnología Central Vietnamita en el Programa Nacional de Transformación Digital 2025-2030 del Ministerio de Información y Comunicaciones
- Proyecto ganador del Vietnam Digital Media Award 2018 y del Vingroup Fund 2019.
Visión regional
Después de afirmar su posición en el mercado vietnamita, Vbee apunta a expandirse al sudeste asiático con planes de llevar su tecnología TTS a países como Laos, Tailandia, Camboya y Filipinas para 2026.
Según la Dra. Nguyen Thi Thu Trang, el rápido avance de la tecnología actual con la aparición de modelos multilingües facilitará el desarrollo de herramientas TTS para otros idiomas.
Actualmente, está investigando tecnologías de voz para tailandés, chino e inglés, abriendo nuevos pasos para Vbee en el mercado internacional.
[anuncio_2]
Fuente: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
Kommentar (0)