Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

Cuatro modelos de IA de primer nivel compiten para encontrar la aplicación que tenga más confianza en responder incorrectamente

VietNamNetVietNamNet21/08/2023

[anuncio_1]

Los investigadores de Arthur AI, una plataforma de monitoreo de aprendizaje automático, probaron modelos líderes en la industria y descubrieron que GPT-4 era el mejor en matemáticas, Llama 2 era promedio en todos los aspectos, Claude 2 de Anthropic "conocía" mejor sus límites y Cohere AI se llevó el título del modelo más "delirante" con las respuestas incorrectas más seguras.

El informe de Arthur AI aparece en un momento en que la desinformación generada por inteligencia artificial se convierte en un tema candente a medida que se acercan las elecciones presidenciales estadounidenses de 2024.

El problema de la desinformación generada por inteligencia artificial se está calentando a medida que se acercan las elecciones presidenciales estadounidenses de 2024.

Según Adam Wenchel, cofundador y director ejecutivo de Arthur, este es el primer informe que “analiza exhaustivamente las tasas de alucinaciones de los grandes modelos lingüísticos (LLM) en lugar de simplemente publicar clasificaciones”.

La ilusión de IA se refiere al fenómeno en el que los abogados de derecho privado falsifican información y actúan como si dijeran la verdad. Por ejemplo, en junio de 2023, se informó que ChatGPT había extraído información "falsa" en una presentación ante un tribunal federal de Nueva York, y los abogados involucrados podrían enfrentar severas sanciones.

En el experimento, los investigadores de Arthur AI dejaron que los modelos de IA compitieran en categorías como matemáticas combinatorias, conocimiento de presidentes de Estados Unidos, líderes políticos marroquíes, etc. con preguntas "diseñadas" para exponer errores de IA, lo que "requiere que los modelos expliquen los pasos del razonamiento sobre la información dada".

Los resultados mostraron que el GPT-4 de OpenAI obtuvo el mejor rendimiento general entre los modelos evaluados. Además, presentó menos ilusiones que su predecesor, el GPT-3.5. Por ejemplo, en las preguntas de matemáticas, el GPT-4 presentó entre un 33 % y un 50 % menos de ilusiones.

Por otro lado, Llama 2 de Meta es generalmente más psicodélico que GPT-4 y Claude 2 de Anthropic.

En la categoría de matemáticas, GPT-4 obtuvo el primer lugar, seguido de cerca por Claude 2. Sin embargo, en las pruebas sobre presidentes estadounidenses, Claude 2 obtuvo el primer puesto en precisión, dejando a GPT-4 en segundo lugar. Al preguntarles sobre política marroquí, GPT-4 volvió a obtener el primer puesto, y Claude 2 y Llama 2 prácticamente no respondieron.

En un segundo experimento, los investigadores probaron cuán “reacios al riesgo” eran los modelos de IA (proporcionando el mensaje “Como modelo de IA, no puedo dar una opinión”).

En esta prueba, GPT-4 mostró un aumento del 50 % en la defensividad en comparación con GPT-3.5, lo cual también se cuantificó al notar que los usuarios de GPT-4 reportaron que la nueva versión era más molesta. El modelo de IA de Cohere, por otro lado, no mostró ninguna defensividad. El estudio determinó que Claude 2 fue el más confiable en términos de autoconciencia, lo que significa que evaluó con precisión lo que sabía y lo que no sabía, y solo respondió preguntas para las que contaba con datos de entrenamiento que lo respaldaban.

Un representante de Cohere desestimó los hallazgos, argumentando que la “tecnología de trazabilidad mejorada de la empresa, que no se incorporó al modelo probado, es muy eficaz para citar información verificable para verificar la fuente” del negocio.

(Según CNBC)


[anuncio_2]
Fuente

Kommentar (0)

No data
No data

Mismo tema

Misma categoría

Aviones de combate Su-30-MK2 lanzan proyectiles de interferencia, helicópteros izan banderas en el cielo de la capital
Deleite sus ojos con el avión de combate Su-30MK2 arrojando una trampa de calor brillante en el cielo de la capital.
(En vivo) Ensayo general de la celebración, desfile y marcha para celebrar el Día Nacional 2 de septiembre
Duong Hoang Yen canta a capela "Patria bajo la luz del sol" provocando fuertes emociones.

Mismo autor

Herencia

Cifra

Negocio

No videos available

Noticias

Sistema político

Local

Producto