El concurso de Lengua y Procesamiento del Habla Vietnamita (VLSP) forma parte de la Conferencia Internacional anual sobre Lengua y Procesamiento del Habla Vietnamita, organizada por el Club VLSP, una rama de la Asociación Vietnamita de Tecnologías de la Información. VLSP 2023 organiza 10 concursos sobre procesamiento del habla y el texto, que reúnen a destacados investigadores, expertos y unidades de desarrollo tecnológico.
Aunque esta era la cuarta vez que Viettel AI participaba en la competencia y había ganado tres veces antes, los ingenieros de Viettel aún encontraron muchas dificultades debido a los cambios en la estructura de categorías de la competencia.
En concreto, en comparación con el año pasado, las categorías de Reconocimiento de Voz y Reconocimiento de Emociones se han fusionado en una sola. Los equipos deben resolver dos problemas simultáneamente para asegurar que se reconozcan tanto el texto como la emoción de la oración; la carga de trabajo y la dificultad se han duplicado.
Aproveche todos los datos, ya sean de baja o alta calidad.
El examen de este año no solo cambia la estructura de las categorías, sino que también se centra en la creación de modelos desde cero con datos limitados, como datos sin procesar, sin etiquetar y de baja calidad. El examen proporciona cuatro grupos de datos con diferente calidad y formato: audio sin etiquetar, audio y texto, emociones y audio (alta calidad y etiquetas estándar), y un conjunto de datos de emociones y audio (baja calidad). Cada conjunto de datos está claramente definido para cada propósito y categoría del examen, con un total de más de 300 horas dedicadas a todos ellos. Esta cifra es bastante modesta en comparación con los conjuntos de datos estándar para el entrenamiento del reconocimiento de voz, que suelen requerir entre 1000 y 2000 horas o más.
Cada equipo tuvo menos de dos meses para trabajar y presentar su trabajo, pero en realidad, el tiempo real dedicado a investigar soluciones fue mucho menor debido a la falta de recursos.
“Este año, Viettel AI ha dedicado muchos recursos de infraestructura informática a la investigación de nuevas tecnologías, así como al desarrollo de productos, mientras que el reconocimiento de voz es una tecnología que requiere muchos recursos de hardware”, dijo el Sr. Dang Dinh Son, ingeniero de inteligencia artificial, Plataforma de asistente virtual, Viettel AI.
Ante la escasez de datos, tanto en volumen como en calidad, el equipo de investigación se propuso utilizar todos los datos, independientemente de su calidad. Para ello, es necesario desarrollar un ciclo de entrenamiento que procese todos los datos, así como un único modelo para resolver diversos problemas, en lugar de múltiples modelos.
Los resultados del dominio pionero de la tecnología
En un contexto de falta de datos y de recursos, el equipo de investigación decidió construir un proceso de procesamiento simple, no masivo, pero, lo que es más importante, refinado hasta el más mínimo detalle.
Los ingenieros de IA de Viettel analizaron cuidadosamente las últimas investigaciones de congresos y revistas internacionales de renombre para encontrar una solución. Combinando métodos de procesamiento de datos para entrenar el modelo que han resultado eficaces, el equipo de investigación creó un ciclo de entrenamiento para procesar todos los datos disponibles. El ciclo consta de tres pasos: construir un modelo preentrenado para describir las características de la voz sin etiquetas, perfeccionar el modelo preentrenado para dos problemas: reconocimiento de voz y reconocimiento de emociones, e inferencia.
La experiencia adquirida al resolver problemas con la falta de datos durante el desarrollo e implementación de productos anteriores también contribuyó significativamente a que el equipo encontrara un método de toma de decisiones. Por otro lado, el conocimiento y los resultados obtenidos en la prueba también tienen el potencial de aplicarse de inmediato a los productos de Viettel AI, por lo que el proceso de trabajo durante la prueba transcurrió sin contratiempos, afirmó el Sr. Bui Tien Dat, ingeniero de plataforma de asistentes virtuales de Viettel AI.
Como resultado, Viettel AI no solo ganó el primer premio en las categorías de Reconocimiento de voz y Reconocimiento de emociones del habla, sino que también logró una puntuación impresionante del 89,18% (los siguientes equipos obtuvieron 83,40% y 78,45% respectivamente).
El Sr. Son dijo que el factor clave radica en el modelo de procesamiento de voz específico para vietnamita que Viettel AI ha desarrollado durante mucho tiempo.
“En lugar de utilizar modelos e instrucciones de los resultados de investigación disponibles, Viettel AI optó por construir y desarrollar su propio modelo para el procesamiento del habla vietnamita. Este modelo se actualiza y optimiza constantemente y se vuelve cada vez más eficaz”, afirmó el Sr. Son.
Esta solución de Viettel AI no solo se centrará en la competencia, sino que también servirá de base para la actualización de los productos de centralita virtual, como el asistente virtual de Viettel, que ayuda a identificar las emociones de los clientes con mayor precisión en las conversaciones, ofreciendo así retroalimentación o eligiendo los matices apropiados. De esta forma, las conversaciones entre humanos e IA serán más naturales, mejorando la experiencia del usuario. También se abren nuevas posibilidades en la atención al cliente, como la creación de un sistema que identifique automáticamente las quejas de los clientes y las que se envían a la centralita para su gestión oportuna o para el aprovechamiento de la información.
El representante de la unidad dijo que Viettel AI continuará desarrollando tecnología, actualizando constantemente los productos para aumentar la precisión, mejorar la experiencia del usuario y la eficiencia del producto.
Quoc Tuan
[anuncio_2]
Fuente
Kommentar (0)