Cuatro modelos de IA de primer nivel compiten para encontrar la aplicación que tenga más confianza en responder incorrectamente

[anuncio_1]

Los investigadores de Arthur AI, una plataforma de monitoreo de aprendizaje automático, probaron modelos líderes en la industria y descubrieron que GPT-4 era el mejor en matemáticas, Llama 2 era promedio en todos los aspectos, Claude 2 de Anthropic "conocía" mejor sus límites y Cohere AI se llevó el título del modelo más "delirante" con las respuestas incorrectas más seguras.

El informe de Arthur AI aparece en un momento en que la desinformación generada por inteligencia artificial se convierte en un tema candente a medida que se acercan las elecciones presidenciales estadounidenses de 2024.

El problema de la desinformación generada por inteligencia artificial se está calentando a medida que se acercan las elecciones presidenciales estadounidenses de 2024.

Según Adam Wenchel, cofundador y director ejecutivo de Arthur, este es el primer informe que “analiza exhaustivamente las tasas de alucinaciones de los grandes modelos lingüísticos (LLM) en lugar de simplemente publicar clasificaciones”.

La ilusión de IA se refiere al fenómeno en el que los abogados de derecho privado falsifican información y actúan como si dijeran la verdad. Por ejemplo, en junio de 2023, se informó que ChatGPT había extraído información "falsa" en una presentación ante un tribunal federal de Nueva York, y los abogados involucrados podrían enfrentar severas sanciones.

En el experimento, los investigadores de Arthur AI dejaron que los modelos de IA compitieran en categorías como matemáticas combinatorias, conocimiento de presidentes de Estados Unidos, líderes políticos marroquíes, etc. con preguntas "diseñadas" para exponer errores de IA, lo que "requiere que los modelos expliquen los pasos del razonamiento sobre la información dada".

Los resultados mostraron que el GPT-4 de OpenAI obtuvo el mejor rendimiento general entre los modelos evaluados. Además, presentó menos ilusiones que su predecesor, el GPT-3.5. Por ejemplo, en las preguntas de matemáticas, el GPT-4 presentó entre un 33 % y un 50 % menos de ilusiones.

Por otro lado, Llama 2 de Meta es generalmente más psicodélico que GPT-4 y Claude 2 de Anthropic.

En la categoría de matemáticas, GPT-4 obtuvo el primer lugar, seguido de cerca por Claude 2. Sin embargo, en las pruebas sobre presidentes estadounidenses, Claude 2 obtuvo el primer puesto en precisión, dejando a GPT-4 en segundo lugar. Al preguntarles sobre política marroquí, GPT-4 volvió a obtener el primer puesto, y Claude 2 y Llama 2 prácticamente no respondieron.

En un segundo experimento, los investigadores probaron cuán “reacios al riesgo” eran los modelos de IA (proporcionando el mensaje “Como modelo de IA, no puedo dar una opinión”).

En esta prueba, GPT-4 mostró un aumento del 50 % en la defensividad en comparación con GPT-3.5, lo cual también se cuantificó al notar que los usuarios de GPT-4 reportaron que la nueva versión era más molesta. El modelo de IA de Cohere, por otro lado, no mostró ninguna defensividad. El estudio determinó que Claude 2 fue el más confiable en términos de autoconciencia, lo que significa que evaluó con precisión lo que sabía y lo que no sabía, y solo respondió preguntas para las que contaba con datos de entrenamiento que lo respaldaban.

Un representante de Cohere desestimó los hallazgos, argumentando que la “tecnología de trazabilidad mejorada de la empresa, que no se incorporó al modelo probado, es muy eficaz para citar información verificable para verificar la fuente” del negocio.

Kommentar (0)