El producto rápidamente generó revuelo en la comunidad científica y tecnológica vietnamita.
Elija el camino difícil para resolver el problema vietnamita
A finales de 2022, ChatGPT generó un gran impacto, iniciando una carrera por la conquista de la IA entre países y gigantes tecnológicos. En aquel entonces, la comunidad tecnológica vietnamita también estaba ansiosa por desarrollar productos vietnamitas para ser autosuficientes tecnológicamente, reduciendo así la dependencia de productos internacionales. Sin embargo, no todas las unidades tienen la capacidad y la determinación de hacer realidad ese deseo como VinBigdata.
La IA generativa es un problema complejo. Grandes empresas como OpenAI o Google también tienen que invertir muchos recursos y tiempo en investigación para crear productos como los que vemos. Estos productos son muy buenos, pero los científicos aún no comprenden completamente su funcionamiento. Pocos pueden predecir cuándo presenta errores y cuáles serán. Desarrollar un producto similar a ChatGPT para los vietnamitas en menos de un año presenta muchos desafíos. Pero decidimos arriesgarnos porque, si no se crea una versión vietnamita de ChatGPT por vietnamitas, ¿quién la creará? —compartió el profesor Vu Ha Van, director científico de VinBigdata.
De hecho, muy pocas empresas optan por construir sus propios Modelos de Lenguaje de Gran Tamaño desde cero. Por ejemplo, el GPT 3 de OpenAI cuenta con 175 mil millones de parámetros, se entrenó con un conjunto de datos de 45 terabytes y tuvo un coste de 4,6 millones de dólares. Según cálculos, el desarrollo del GPT 4 podría alcanzar los 100 millones de dólares. «Con cifras tan elevadas, es muy difícil encontrar una empresa que pueda permitirse invertir en esta tecnología», declaró el Dr. Nguyen Kim Anh, director de producto de VinBigdata.
Para que las empresas vietnamitas accedan a la tecnología de IA de nueva generación, con costos e infraestructura óptimos, VinBigdata optó por una estrategia completamente diferente: crear un modelo de lenguaje con tan solo 1.600 millones de parámetros, pero con capacidades equivalentes a las de grandes modelos de lenguaje con miles de millones de parámetros. «Los resultados demuestran que, con la arquitectura desarrollada por VinBigdata, es totalmente posible optimizar y acelerar el proceso de entrenamiento del modelo de lenguaje, reducir los costos de infraestructura (incluidos los de entrenamiento y uso), y al mismo tiempo garantizar la calidad del modelo», añadió el Dr. Nguyen Kim Anh.
Después de resolver el problema del gran tamaño del modelo de lenguaje, durante el proceso de "concepción" de ViGPT, después de investigar modelos extranjeros, el equipo de VinBigdata también se dio cuenta de otro desafío que es la "ilusión", que proviene de la naturaleza inherente de los modelos de probabilidad estadística.
En consecuencia, los modelos lingüísticos más grandes del mundo suelen entrenarse con fuentes de datos en inglés. Por lo tanto, este modelo no comprende ni responde correctamente al contexto y la cultura de los vietnamitas. Esto genera alucinaciones que hacen que los modelos lingüísticos más grandes "inventen" respuestas incorrectas.
Para encontrar la solución óptima en el menor tiempo posible, el equipo de Procesamiento del Lenguaje Natural (PLN) de VinBigdata se divide en pequeños grupos, analizando y discutiendo diferentes ideas para encontrar la dirección final más adecuada.
“Finalmente, decidimos desarrollar una arquitectura diferente a la de la mayoría de los grandes modelos lingüísticos actuales y realizar un entrenamiento en un conjunto de datos vietnamitas optimizado de 600 GB, para crear un “asistente virtual inteligente” que pueda comprender y dar respuestas según el contexto de los vietnamitas”, añadió el Dr. Nguyen Kim Anh.
Aspiración a un ecosistema tecnológico vietnamita
Según los resultados de la evaluación de los Estándares de Evaluación del Dominio del Idioma Vietnamita (VMLU), ViGPT obtuvo una puntuación promedio del 42,24 %, superada solo por ChatGPT (48,54 %). Este resultado permite a ViGPT buscar información rápidamente y responder preguntas sobre temas específicos de Vietnam.
Además de las capacidades del asistente virtual, el equipo de desarrollo desea integrar ViGPT en productos familiares y de uso diario para generar cambios en la vida de los vietnamitas. Esta es la motivación que impulsa al equipo de VinBigdata a construir un ecosistema de productos de lenguaje y voz que apliquen ViGPT. El ecosistema "Vi" incluye: ViChat, ViVoice y ViVi Virtual Assistant. Estos productos se pueden utilizar en diversos sectores, desde la automoción, la banca y las finanzas, los seguros hasta el transporte y muchos otros.
“Al trabajar con tecnología, especialmente con IA, no solo buscamos dominar sistemas interesantes, complejos y difíciles de comprender. Queremos crear productos tangibles y altamente aplicables, donde la IA sea el agente directo que genere cambios en la vida”, afirmó el director de producto de VinBigdata.
Por lo tanto, el exitoso desarrollo de ViGPT es solo el primer paso en el camino para poner tecnología y datos puramente vietnamitas al servicio de la vida de millones de vietnamitas. Un representante de VinBigdata afirmó que esta unidad busca integrar ViGPT en la plataforma de inteligencia artificial multicognitiva VinBase 2.0 para brindar soluciones excepcionales a organizaciones y empresas de diversos tamaños e industrias.
Antes de ViGPT, el equipo de expertos e ingenieros en el campo de la tecnología de procesamiento del lenguaje y del habla VinBigdata dejó su huella con el lanzamiento de ViVi, el primer asistente virtual vietnamita integral (aplicado e implementado en los automóviles eléctricos VinFast , las aplicaciones Vinhomes Resident y la plataforma de comercio electrónico Vinhomes Online), al mismo tiempo, dominando por completo las tecnologías más avanzadas del mundo, como la biometría de voz o la clonación de voz.
Todas estas tecnologías se desarrollan a partir de una base de datos de 3500 terabytes, centrada principalmente en datos específicos de Vietnam, recopilados, analizados y refinados por VinBigdata. El objetivo final es acercar la tecnología mundial a la vida vietnamita, utilizando datos y sistemas de conocimiento vietnamitas.
ViGPT es la primera versión vietnamita de ChatGPT para usuarios finales, basada en el modelo de lenguaje extenso vietnamita (LLM) desarrollado por VinBigdata. ViGPT cuenta con características excepcionales y está diseñado para satisfacer las necesidades de los vietnamitas, como la creación de contenido, la búsqueda de información y la respuesta a preguntas frecuentes sobre características vietnamitas. Regístrese y pruebe ViGPT en: vigpt.vinbigdata.com |
Thanh Ha
[anuncio_2]
Fuente
Kommentar (0)