Los dos nuevos modelos ChatGPT presentan una mayor frecuencia de fabricación de información que la generación anterior. Foto: Fireflies . |
Tan solo dos días después de anunciar GPT-4.1, OpenAI lanzó oficialmente no uno, sino dos nuevos modelos, llamados o3 y o4-mini. Ambos modelos demuestran capacidades de inferencia superiores con varias mejoras importantes.
Sin embargo, según TechCrunch , estos dos nuevos modelos aún sufren de alucinaciones o falsificación de información. De hecho, sufren más alucinaciones que algunos de los modelos anteriores de OpenAI.
Según IBM, las alucinaciones ocurren cuando un modelo de lenguaje grande (LLM), generalmente un chatbot o una herramienta de visión artificial, recibe patrones de datos que no existen o que son irreconocibles para los humanos, lo que genera resultados sin sentido o engañosos.
En otras palabras, los usuarios suelen pedir a la IA que produzca resultados precisos, basándose en los datos de entrenamiento. Sin embargo, en algunos casos, los resultados de la IA no se basan en datos precisos, lo que genera respuestas ilusorias.
En su último informe, OpenAI descubrió que o3 "alucinaba" al responder el 33% de las preguntas en PersonQA, el punto de referencia interno de la empresa para medir la precisión del conocimiento que un modelo tiene de los humanos.
A modo de comparación, esta tasa de alucinaciones es el doble que la de los modelos de razonamiento anteriores de OpenAI, o1 y o3-mini, que presentaron alucinaciones el 16 % y el 14,8 % del tiempo, respectivamente. Por otro lado, el modelo O4-mini tuvo un rendimiento aún peor en PersonQA, con alucinaciones el 48 % del tiempo.
Lo más preocupante es que el "padre de ChatGPT" desconoce por qué ocurre esto. En concreto, en el informe técnico sobre o3 y o4-mini, OpenAI escribe que "se necesita más investigación para comprender por qué la "ilusión" empeora a medida que escalan los modelos de razonamiento".
Los modelos o3 y o4-mini obtuvieron mejores resultados en algunas áreas, como programación y tareas matemáticas. Sin embargo, debido a que necesitaban formular más afirmaciones que generalizar, ambos modelos presentaban dificultades para producir más afirmaciones correctas, pero también más incorrectas.
Fuente: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html
Kommentar (0)