En consecuencia, incluso la configuración del modelo de inteligencia artificial con mejor rendimiento que probaron, GPT-4-Turbo de OpenAI, solo logró una tasa de respuestas correctas del 79 % a pesar de leer el perfil completo y, a menudo, experimentó "alucinaciones" de cifras o eventos irreales.
“Ese nivel de rendimiento es completamente inaceptable”, afirmó Anand Kannappan, cofundador de Patronus AI. “La tasa de respuestas correctas debe ser mucho mayor para automatizarse y estar listo para producción”.
Los hallazgos resaltan algunos de los desafíos que enfrentan los modelos de IA a medida que las grandes empresas, especialmente en industrias altamente reguladas como las finanzas, buscan incorporar tecnología avanzada en sus operaciones, ya sea servicio al cliente o investigación.
La "ilusión" de los datos financieros
La capacidad de extraer rápidamente números clave y realizar análisis de estados financieros se ha considerado como una de las aplicaciones más prometedoras de los chatbots desde que se lanzó ChatGPT a fines del año pasado.
Los archivos de la SEC contienen datos importantes, y si un bot puede resumir con precisión o responder rápidamente preguntas sobre sus contenidos, podría dar a los usuarios una ventaja en la competitiva industria financiera.
Durante el año pasado, Bloomberg LP desarrolló su propio modelo de inteligencia artificial para datos financieros, y los profesores de escuelas de negocios han estado estudiando si ChatGPT puede analizar titulares financieros.
Mientras tanto, JPMorgan también está desarrollando una herramienta de inversión automatizada basada en IA. Un pronóstico reciente de McKinsey indicó que la IA generativa podría impulsar el sector bancario en billones de dólares al año.
Pero aún queda mucho camino por recorrer. Cuando Microsoft lanzó Bing Chat con GPT de OpenAI, utilizó el chatbot para resumir rápidamente los comunicados de prensa de resultados. Los analistas rápidamente notaron que las cifras que la IA presentaba estaban sesgadas o incluso eran falsas.
Mismos datos, diferentes respuestas
Parte del desafío de incorporar LLM en productos del mundo real radica en que los algoritmos no son deterministas, lo que significa que no se garantiza que produzcan los mismos resultados con las mismas entradas. Esto implica que las empresas deben realizar pruebas más rigurosas para garantizar que la IA funcione correctamente, no se desvíe del tema y ofrezca resultados fiables.
Patronus AI creó un conjunto de más de 10,000 preguntas y respuestas extraídas de presentaciones ante la SEC de grandes empresas que cotizan en bolsa, llamado FinanceBench. El conjunto de datos incluye las respuestas correctas, así como la ubicación exacta en cada archivo para encontrarlas.
No todas las respuestas pueden tomarse directamente del texto y algunas preguntas requieren cálculo o razonamiento ligero.
La prueba de subconjunto de 150 preguntas involucró cuatro modelos LLM: GPT-4 y GPT-4-Turbo de OpenAI, Claude 2 de Anthropic y Llama 2 de Meta.
Como resultado, GPT-4-Turbo, cuando se le otorgó acceso a las presentaciones subyacentes de la SEC, solo logró una tasa de precisión del 85% (en comparación con el 88% cuando no tenía acceso a los datos), a pesar de que un humano señaló el mouse al texto exacto para que la IA encontrara la respuesta.
Llama 2, un modelo de inteligencia artificial de código abierto desarrollado por Meta, tuvo el mayor número de “alucinaciones”, obteniendo el 70% de las respuestas incorrectas y solo el 19% correctas cuando se le dio acceso a una parte de los documentos subyacentes.
Claude 2 de Anthropic tuvo un buen rendimiento en un contexto extenso, que incluía prácticamente toda la documentación relevante de la SEC junto con la pregunta. Respondió el 75 % de las preguntas, respondió incorrectamente el 21 % y se negó a responder el 3 %. GPT-4-Turbo también tuvo un buen rendimiento en un contexto extenso, respondiendo correctamente el 79 % de las preguntas y respondiendo incorrectamente el 17 %.
(Según CNBC)
La carrera de las grandes tecnológicas para invertir en startups de inteligencia artificial
La tecnología de IA revoluciona las empresas emergentes de comercio electrónico
La IA convierte con éxito los pensamientos humanos en imágenes realistas por primera vez
[anuncio_2]
Fuente
Kommentar (0)