
En abril, un bot de inteligencia artificial que maneja el soporte técnico de Cursor, una herramienta emergente para programadores, notificó a algunos clientes sobre un cambio en la política de la empresa. En concreto, el aviso indica que ya no se les permite utilizar Cursor en más de un ordenador.
En foros y redes sociales, los clientes han expresado su enojo. Algunos incluso cancelaron sus cuentas de Cursor. Sin embargo, algunos se enfurecieron aún más cuando se dieron cuenta de lo que había sucedido: el bot de IA había anunciado un cambio de política que no existía.
"No tenemos esa política. Por supuesto, puedes usar Cursor en varias máquinas. Desafortunadamente, esta fue una respuesta incorrecta de un bot con inteligencia artificial", escribió Michael Truell, director ejecutivo y cofundador de la empresa, en una publicación de Reddit.
La información falsa está fuera de control.
Más de dos años después del lanzamiento de ChatGPT, las empresas de tecnología, los trabajadores de oficina y los consumidores cotidianos están utilizando bots de IA para una amplia gama de tareas con una frecuencia cada vez mayor.
Sin embargo, no hay forma de garantizar que estos sistemas produzcan información precisa. Existe la paradoja de que las nuevas tecnologías más potentes, también conocidas como sistemas de “inferencia” de empresas como OpenAI, Google y DeepSeek, están cometiendo más errores.
![]() |
Diálogo sin sentido de ChatGPT donde el usuario pregunta si los perros deben comer cereal. Foto: Reddit. |
Si bien las habilidades matemáticas han mejorado drásticamente, la capacidad de los modelos de lenguaje grande (LLM) para capturar la verdad se ha vuelto más inestable. Sorprendentemente, incluso los propios ingenieros no tienen ni idea de por qué.
Según el New York Times , los chatbots de IA actuales se basan en sistemas matemáticos complejos para aprender habilidades mediante el análisis de enormes cantidades de datos digitales. Sin embargo, no pueden decidir qué está bien y qué está mal.
A partir de ahí aparece el estado de “alucinación” o información autofabricada. De hecho, según las investigaciones, los últimos LLM son incluso más "ilusorios" que algunos modelos más antiguos.
En concreto, en el último informe, OpenAI descubrió que el modelo o3 "alucinaba" al responder el 33% de las preguntas en PersonQA, el estándar interno de la compañía para medir la precisión del conocimiento del modelo sobre los humanos.
A modo de comparación, esto es el doble de la tasa de “alucinación” de los modelos de razonamiento anteriores de OpenAI, o1 y o3-mini, que eran del 16% y 14,8%, respectivamente. Mientras tanto, el modelo o4-mini obtuvo resultados aún peores en PersonQA, experimentando "alucinaciones" durante hasta el 48% de la duración de la prueba.
Lo más preocupante es que el "padre de ChatGPT" no sabe realmente por qué sucede esto. En concreto, en el informe técnico sobre o3 y o4-mini, OpenAI escribe que "se necesita más investigación para entender por qué la 'ilusión' empeora" a medida que se escalan los modelos de razonamiento.
El o3 y el o4-mini tienen un mejor desempeño en algunas áreas, incluidas las tareas relacionadas con la programación y las matemáticas. Sin embargo, debido a la necesidad de "hacer más afirmaciones que generalizar", ambos modelos sufren el problema de producir resultados que incluyen "afirmaciones más precisas, pero también afirmaciones más inexactas".
"Eso nunca desaparecerá"
En lugar de un conjunto estricto de reglas determinadas por ingenieros humanos, los sistemas LLM utilizan probabilidad matemática para adivinar la mejor respuesta. Así que siempre cometen ciertos errores.
“A pesar de nuestros mejores esfuerzos, los modelos de IA siempre serán engañosos. Eso nunca desaparecerá”, afirmó Amr Awadallah, exejecutivo de Google.
![]() |
Según IBM, las alucinaciones ocurren cuando un modelo de lenguaje grande (LLM), generalmente un chatbot o una herramienta de visión artificial, recibe patrones de datos que no existen o que son irreconocibles para los humanos, lo que genera resultados sin sentido o engañosos. Foto: iStock. |
En un artículo detallado sobre los experimentos, OpenAI dijo que necesita más investigación para comprender las razones de estos resultados.
Los expertos afirman que, como los sistemas de IA aprenden de cantidades de datos mucho mayores que las que los humanos pueden comprender, puede ser difícil determinar por qué se comportan de determinadas maneras.
Las alucinaciones son inherentemente más comunes en los modelos de inferencia, aunque trabajamos activamente para reducir la incidencia observada en o3 y o4-mini. Seguiremos trabajando en las alucinaciones en todos los modelos para mejorar la precisión y la fiabilidad, afirmó Gaby Raila, portavoz de OpenAI.
Pruebas realizadas por varias empresas e investigadores independientes muestran que la tasa de ilusión también está aumentando para los modelos de inferencia de empresas como Google o DeepSeek.
Desde finales de 2023, la empresa Vectara de Awadallah ha estado rastreando la frecuencia con la que los chatbots difunden información errónea. La empresa pidió a estos sistemas que realizaran una tarea sencilla y fácilmente verificable de resumir artículos de noticias específicos. Aun así, los chatbots persisten en fabricar información.
En concreto, la investigación inicial de Vectara estimó que, en este escenario, los chatbots fabricaban información al menos el 3% del tiempo y, a veces, hasta el 27%.
Durante el último año y medio, empresas como OpenAI y Google han reducido esas cifras a alrededor del 1 o 2%. Otras, como la startup de San Francisco Anthropic, rondan el 4%.
Sin embargo, la tasa de alucinaciones en esta prueba continuó aumentando para los sistemas de inferencia. La frecuencia con la que el sistema de inferencia R1 de DeepSeek experimentó alucinaciones aumentó un 14,3%, mientras que el o3 de OpenAI aumentó un 6,8%.
Otro problema es que los modelos de inferencia están diseñados para dedicar tiempo a "pensar" en problemas complejos, antes de llegar a una respuesta final.
![]() |
Apple insertó en la primera versión de prueba de macOS 15.1 un mensaje para evitar que la IA fabrique información. Foto: Reddit/devanxd2000. |
Sin embargo, la desventaja es que al intentar resolver el problema paso a paso, el modelo de IA corre cada vez más el riesgo de alucinar en cada paso. Más importante aún, los errores pueden acumularse a medida que el modelo pasa más tiempo pensando.
Los bots más recientes muestran cada paso al usuario, lo que significa que el usuario también puede ver cada error. Los investigadores también descubrieron que, en muchos casos, el paso de pensamiento mostrado por un chatbot en realidad no estaba relacionado con la respuesta final que daba.
“Lo que el sistema dice que está razonando no es necesariamente lo que realmente está pensando”, afirma Aryo Pradipta Gema, investigador de IA en la Universidad de Edimburgo y colaborador de Anthropic.
Fuente: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
Kommentar (0)