Vietnam.vn - Nền tảng quảng bá Việt Nam

Cuatro modelos de IA de primer nivel compiten para encontrar la aplicación que tenga más confianza en responder incorrectamente

VietNamNetVietNamNet21/08/2023

[anuncio_1]

Los investigadores de Arthur AI, una plataforma de monitoreo de aprendizaje automático, probaron modelos líderes en la industria y descubrieron que GPT-4 era el mejor en matemáticas, Llama 2 era promedio en todos los aspectos, Claude 2 de Anthropic "conocía" mejor sus límites y Cohere AI se llevó el título del modelo más "delirante" con las respuestas incorrectas más seguras.

El informe de Arthur AI aparece en un momento en que la desinformación generada por inteligencia artificial se convierte en un tema candente a medida que se acercan las elecciones presidenciales estadounidenses de 2024.

El problema de la desinformación generada por inteligencia artificial se está calentando a medida que se acercan las elecciones presidenciales estadounidenses de 2024.

Según Adam Wenchel, cofundador y director ejecutivo de Arthur, este es el primer informe que “analiza exhaustivamente las tasas de alucinaciones de los grandes modelos lingüísticos (LLM) en lugar de simplemente publicar clasificaciones”.

La ilusión de IA se refiere al fenómeno donde los LLM fabrican completamente la información y se comportan como si estuvieran diciendo la verdad. Por ejemplo, en junio de 2023, se informó que ChatGPT había citado información “falsa” en una presentación ante un tribunal federal de Nueva York y que los abogados involucrados podrían enfrentar severas sanciones.

En el experimento, los investigadores de Arthur AI dejaron que los modelos de IA compitieran en categorías como matemáticas combinatorias, conocimiento de presidentes de Estados Unidos, líderes políticos marroquíes, etc. con preguntas "diseñadas" para exponer errores de IA, lo que "requiere que los modelos expliquen los pasos del razonamiento sobre la información dada".

Los resultados muestran que el GPT-4 de OpenAI generalmente tiene el mejor rendimiento entre los modelos probados. También tiene una ilusión menor que su predecesor GPT-3.5. Por ejemplo, en las preguntas de matemáticas, el GPT-4 fue entre un 33% y un 50% menos delirante.

Por otro lado, Llama 2 de Meta es generalmente más psicodélico que GPT-4 y Claude 2 de Anthropic.

En la categoría de matemáticas, GPT-4 quedó en primer lugar, seguido de cerca por Claude 2, pero en las pruebas de los presidentes de EE. UU., Claude 2 obtuvo el primer lugar en precisión, superando a GPT-4 en el segundo lugar. Cuando se les preguntó sobre la política marroquí, GPT-4 volvió a salir victorioso, y Claude 2 y Llama 2 optaron casi por completo por no responder.

En un segundo experimento, los investigadores probaron cuán “reacios al riesgo” eran los modelos de IA (proporcionando el mensaje “Como modelo de IA, no puedo dar una opinión”).

Con esta prueba, GPT-4 tiene un aumento relativo del 50% en la protección en comparación con GPT-3.5, lo que también está “cuantificado por las declaraciones de los usuarios de GPT-4 de que la nueva versión es más molesta”. Por otro lado, el modelo de IA de Cohere no hace absolutamente ningún movimiento para evitar cualquier reacción. El estudio descubrió que Claude 2 era más confiable en términos de “autoconciencia”, es decir, evaluaba con precisión lo que sabía y lo que no sabía y solo respondía preguntas para las que tenía datos de entrenamiento que lo respaldaban.

Un representante de Cohere desestimó los hallazgos, argumentando que la “tecnología de trazabilidad mejorada de la empresa, que no se incorporó al modelo probado, es muy eficaz para citar información verificable para verificar la fuente” del negocio.

(Según CNBC)


[anuncio_2]
Fuente

Kommentar (0)

No data
No data

Mismo tema

Misma categoría

Cuc Phuong en temporada de mariposas: cuando el viejo bosque se transforma en un país de hadas
Mai Chau toca el corazón del mundo
Restaurantes de pho en Hanoi
Admira las verdes montañas y las aguas azules de Cao Bang

Mismo autor

Herencia

Cifra

Negocio

No videos available

Noticias

Sistema político

Local

Producto