
En abril, un bot de inteligencia artificial que maneja el soporte técnico para Cursor, una herramienta emergente para programadores, notificó a algunos clientes sobre un cambio en la política de la empresa, diciendo específicamente que ya no se les permitía usar Cursor en más de una computadora.
Los clientes expresaron su enojo en foros y redes sociales. Algunos incluso cancelaron sus cuentas de Cursor. Pero otros se enojaron aún más al darse cuenta de lo sucedido: el bot de IA había informado de un cambio de política inexistente.
“No tenemos esa política. Por supuesto, puedes usar Cursor en varias máquinas. Desafortunadamente, esta fue una respuesta incorrecta de un bot con inteligencia artificial”, escribió Michael Truell, director ejecutivo y cofundador de la empresa, en una publicación de Reddit.
La información falsa está fuera de control.
Más de dos años después del lanzamiento de ChatGPT, las empresas de tecnología, los trabajadores de oficina y los consumidores cotidianos están utilizando bots de IA para una variedad de tareas con una frecuencia cada vez mayor.
Sin embargo, no hay forma de garantizar que estos sistemas produzcan información precisa. Paradójicamente, las nuevas tecnologías más potentes, conocidas como sistemas de "inferencia" de empresas como OpenAI, Google y DeepSeek, están cometiendo más errores.
![]() |
Conversación absurda de ChatGPT donde un usuario pregunta si los perros deberían comer cereal. Foto: Reddit. |
Si bien las habilidades matemáticas han mejorado drásticamente, la capacidad de los grandes modelos de lenguaje (LLM) para captar la verdad se ha vuelto más precaria. Sorprendentemente, incluso los propios ingenieros desconocen por completo el motivo.
Según el New York Times , los chatbots de IA actuales se basan en sistemas matemáticos complejos para aprender habilidades mediante el análisis de enormes cantidades de datos digitales. Sin embargo, no pueden determinar qué está bien y qué está mal.
A partir de ahí, surge el estado de "alucinación" o autofabricación de información. De hecho, según investigaciones, la última generación de LLM incluso "alucina" más que algunos modelos más antiguos.
En concreto, en el último informe, OpenAI descubrió que el modelo o3 "alucinaba" al responder el 33% de las preguntas en PersonQA, el estándar interno de la compañía para medir la precisión del conocimiento del modelo sobre los humanos.
A modo de comparación, esta tasa de alucinaciones es el doble que la de los modelos de razonamiento anteriores de OpenAI, o1 y o3-mini, que presentaron un 16 % y un 14,8 %, respectivamente. Por otro lado, el modelo o4-mini tuvo un rendimiento aún peor en PersonQA, con alucinaciones el 48 % del tiempo.
Lo más preocupante es que el "padre de ChatGPT" desconoce en realidad por qué sucede esto. En concreto, en el informe técnico sobre o3 y o4-mini, OpenAI escribe que "se necesita más investigación para comprender por qué la "ilusión" empeora a medida que escalan los modelos de razonamiento".
Los modelos o3 y o4-mini obtuvieron mejores resultados en algunas áreas, como programación y tareas matemáticas. Sin embargo, debido a que necesitaban formular más afirmaciones que generalizar, ambos modelos presentaban dificultades para producir más afirmaciones correctas, pero también más incorrectas.
"Eso nunca desaparecerá"
En lugar de un conjunto estricto de reglas determinadas por ingenieros humanos, los sistemas LLM utilizan la probabilidad matemática para determinar la mejor respuesta. Por lo tanto, siempre cometen cierto grado de error.
“A pesar de nuestros mejores esfuerzos, los modelos de IA siempre serán engañosos. Eso nunca desaparecerá”, afirmó Amr Awadallah, exejecutivo de Google.
![]() |
Según IBM, las alucinaciones son un fenómeno en el que los grandes modelos de lenguaje (LLM), generalmente chatbots o herramientas de visión artificial, reciben patrones de datos inexistentes o irreconocibles para los humanos, lo que produce resultados sin sentido o engañosos. Foto: iStock. |
En un artículo detallado sobre los experimentos, OpenAI dijo que necesita más investigación para comprender las razones de estos resultados.
Los expertos afirman que, como los sistemas de IA aprenden de cantidades de datos mucho mayores que las que los humanos pueden comprender, puede ser difícil determinar por qué se comportan de esa manera.
"Las ilusiones son inherentemente más comunes en los modelos de inferencia, aunque estamos trabajando activamente para reducir la incidencia observada en o3 y o4-mini. Seguiremos trabajando en las ilusiones en todos los modelos para mejorar la precisión y la fiabilidad", afirmó Gaby Raila, portavoz de OpenAI.
Pruebas realizadas por varias empresas e investigadores independientes muestran que la tasa de alucinaciones también está aumentando para los modelos de inferencia de empresas como Google o DeepSeek.
Desde finales de 2023, la empresa de Awadallah, Vectara, ha estado monitoreando la frecuencia con la que los chatbots han tergiversado la información. La empresa solicitó a los sistemas que realizaran una tarea sencilla y fácilmente verificable: resumir noticias específicas. Aun así, los chatbots persistieron en falsificar información.
En concreto, la investigación inicial de Vectara estimó que, en este escenario, los chatbots fabricaban información al menos el 3% del tiempo y, a veces, hasta el 27%.
En el último año y medio, empresas como OpenAI y Google han reducido esas cifras a alrededor del 1% o 2%. Otras, como la startup Anthropic de San Francisco, rondan el 4%.
Sin embargo, la tasa de alucinaciones en esta prueba continuó aumentando en los sistemas de inferencia. La frecuencia de alucinaciones aumentó un 14,3 % en el sistema de inferencia R1 de DeepSeek, mientras que en el o3 de OpenAI aumentó un 6,8 %.
Otro problema es que los modelos de inferencia están diseñados para dedicar tiempo a "pensar" en problemas complejos, antes de llegar a una respuesta final.
![]() |
Apple insertó un aviso para evitar que la IA fabrique información en la primera versión de prueba de macOS 15.1. Foto: Reddit/devanxd2000. |
La desventaja, sin embargo, es que, a medida que el modelo de IA intenta resolver el problema paso a paso, se vuelve más susceptible a las alucinaciones en cada paso. Y lo que es más importante, los errores pueden acumularse a medida que el modelo dedica más tiempo a pensar.
Los bots más recientes muestran a los usuarios cada paso, lo que significa que también pueden ver cada error. Los investigadores también descubrieron que, en muchos casos, el proceso de pensamiento que muestra un chatbot no está relacionado con la respuesta final que proporciona.
"Lo que el sistema dice que está infiriendo no es necesariamente lo que realmente está pensando", afirma Aryo Pradipta Gema, investigador de IA en la Universidad de Edimburgo y asociado en Anthropic.
Fuente: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













Kommentar (0)