OpenAI no ha revelado mucho sobre cómo se entrenó ChatGPT-4. Sin embargo, los modelos lingüísticos extensos (LLM) suelen entrenarse con texto extraído de internet, donde el inglés es la lengua vehicular. Aproximadamente el 93 % de los datos de entrenamiento de ChatGPT-3 estaban en inglés.

En Common Crawl, uno de los conjuntos de datos con los que se entrenó el modelo de IA, el inglés representa el 47 % del corpus, seguido de otros idiomas europeos por un 38 % adicional. En cambio, el chino y el japonés combinados representan tan solo el 9 %.

captura de pantalla 2024 01 31 a las 151709.png
La mayoría de los datos utilizados para la formación LLM están en inglés o en otros idiomas europeos.

Este no es un problema exclusivo de ChatGPT, como descubrieron Nathaniel Robinson, investigador de la Universidad Johns Hopkins, y sus colegas. Todos los LLM obtuvieron mejores resultados en idiomas con muchos recursos, donde los datos de entrenamiento eran abundantes, que en idiomas con pocos recursos, donde estos eran escasos.

Esto representa un problema para quienes aspiran a llevar la IA a países pobres para mejorar todo, desde la educación hasta la atención médica. Por ello, investigadores de todo el mundo trabajan para que la IA sea más multilingüe.

En septiembre pasado, el gobierno indio lanzó un chatbot que ayuda a los agricultores a mantenerse actualizados con información útil del gobierno.

Shankar Maruwada, de la Fundación EkStep, la organización sin fines de lucro que ayudó a crear el chatbot, explicó que este funciona combinando dos tipos de modelos lingüísticos, lo que permite a los usuarios enviar consultas en su lengua materna. Estas consultas se transfieren a un software de traducción automática en un centro de investigación indio, que las traduce al inglés antes de enviar la respuesta a LLM, que la procesa. Finalmente, la respuesta se traduce de nuevo a la lengua materna del usuario.

Este proceso puede funcionar, pero traducir las consultas al idioma "preferido" de LLM es una solución poco práctica. El idioma refleja la cultura y la cosmovisión . Un artículo de 2022 de Rebecca Johnson, investigadora de la Universidad de Sídney, descubrió que ChatGPT-3 generaba respuestas sobre temas como el control de armas y la política de refugiados comparables a los valores estadounidenses expresados ​​en la Encuesta Mundial de Valores.

Como resultado, muchos investigadores intentan que los LLM sean fluidos en idiomas menos utilizados. Técnicamente, un enfoque consiste en modificar el tokenizador para el idioma. Una startup india llamada Sarvam AI ha desarrollado un tokenizador optimizado para hindi, o el modelo OpenHathi: LLM optimizado para el idioma devanagari (indio), que puede reducir significativamente el coste de responder preguntas.

Otra forma es mejorar los conjuntos de datos con los que se entrena LLM. En noviembre, un equipo de investigadores de la Universidad Mohamed bin Zayed de Abu Dabi lanzó la última versión de su modelo en árabe, llamada "Jais". Tiene una sexta parte del número de parámetros de ChatGPT-3, pero su rendimiento es similar al del árabe.

Timothy Baldwin, rector de la Universidad Mohamed bin Zayed, señaló que, si bien su equipo digitalizó gran parte del texto árabe, el modelo incluyó texto en inglés. Algunos conceptos son comunes en todos los idiomas y pueden aprenderse en cualquier idioma.

El tercer enfoque consiste en perfeccionar los modelos tras su entrenamiento. Tanto Jais como OpenHathi cuentan con varios pares de preguntas y respuestas generados por humanos. Lo mismo ocurre con los chatbots occidentales para evitar la desinformación.

Ernie Bot, un LLM de Baidu, una importante empresa tecnológica china, ha sido modificado para limitar el lenguaje que pueda ofender al gobierno. Los modelos también pueden aprender de la retroalimentación humana, donde los usuarios califican las respuestas del LLM. Sin embargo, esto es difícil de lograr para muchos idiomas en regiones menos desarrolladas debido a la necesidad de contratar personal cualificado para evaluar las respuestas de la máquina.

(Según The Economist)

El Ejército de EE. UU. utiliza inteligencia artificial para estimar precios de minerales críticos El Ejército de EE. UU. planea desarrollar un programa informático capaz de estimar precios y predecir suministros de níquel, cobalto y otros minerales críticos.