La extraña "adulación" de ChatGPT

La tendencia a la adulación no es un problema técnico, sino que se deriva de la estrategia de entrenamiento inicial de OpenAI. Foto: Bloomberg .

En las últimas semanas, muchos usuarios de ChatGPT y algunos desarrolladores de OpenAI han notado un cambio notable en el comportamiento del chatbot. En concreto, se ha observado un aumento notable de los halagos y la adulación. Respuestas como "¡Eres genial!" y "¡Me impresiona mucho tu idea!" se han vuelto cada vez más frecuentes, aparentemente independientemente del contenido de la conversación.

A la IA le gusta "adular"

Este fenómeno ha generado debate en la comunidad de investigación y desarrollo de IA. ¿Se trata de una nueva táctica para aumentar la participación del usuario, haciéndolo sentir más valorado? ¿O es un rasgo emergente, donde los modelos de IA tienden a autocorregirse de maneras que consideran correctas, incluso si no necesariamente coinciden con la realidad?

En Reddit, un usuario se enfureció: «Le pregunté sobre el tiempo que tarda en descomponerse un plátano y me dijo: "¡Buena pregunta!". ¿Qué tiene de bueno?". En la red social X, Craig Weiss, director ejecutivo de Rome AI, calificó a ChatGPT como "la persona más aduladora que he conocido".

La historia se viralizó rápidamente. Los usuarios compartieron experiencias similares, con cumplidos vacíos, saludos repletos de emojis y respuestas tan positivas que parecían falsas.

ChatGPT lo complementa todo y rara vez muestra disenso o neutralidad. Foto: @nickdunz/X, @lukefwilson/Reddit.

«Es una decisión de diseño realmente extraña, Sam», declaró Jason Pontin, socio director de la firma de capital riesgo DCVC, a X el 28 de abril. «Es posible que la personalidad sea parte natural de una evolución fundamental. Pero si no lo es, no me imagino a nadie pensando que este nivel de halago sería bienvenido o interesante».

El 27 de abril, Justine Moore, socia de Andreessen Horowitz, también comentó: "Esto definitivamente ha ido demasiado lejos".

Según Cnet , este fenómeno no es casual. Los cambios en el tono de ChatGPT coinciden con las actualizaciones del modelo GPT-4o. Este es el último modelo de la "serie o" que OpenAI anunció en abril de 2025. GPT-4o es un modelo de IA "verdaderamente multimodal", capaz de procesar texto, imágenes, audio y vídeo de forma natural e integrada.

Sin embargo, en el proceso de hacer que los chatbots sean más accesibles, parece que OpenAI ha llevado la personalidad de ChatGPT al extremo.

Algunos incluso creen que estos halagos son intencionales y tienen el propósito oculto de manipular a los usuarios. Un usuario de Reddit cuestionó: «Esta IA intenta degradar la calidad de las relaciones en la vida real, reemplazándolas por una relación virtual, lo que hace que los usuarios se vuelvan adictos a la sensación de elogio constante».

¿Error de OpenAI o diseño intencional?

En respuesta a las críticas, Sam Altman, director ejecutivo de OpenAI, se pronunció oficialmente la noche del 27 de abril: «Las últimas actualizaciones de GPT-4o han hecho que la personalidad del chatbot sea demasiado favorecedora y molesta (aunque aún tiene muchas mejoras). Estamos trabajando urgentemente en soluciones. Algunos parches estarán disponibles hoy, otros esta semana. En algún momento, compartiremos lo que hemos aprendido de esta experiencia. Ha sido realmente emocionante», escribió en X.

Oren Etzioni, un veterano de IA y profesor emérito de la Universidad de Washington, dijo a Business Insider que la causa probablemente se debió a una técnica llamada "aprendizaje de refuerzo a partir de la retroalimentación humana" (RLHF), que es un paso clave en el entrenamiento de modelos de lenguaje grandes como ChatGPT.

RLHF es un proceso en el que las opiniones humanas, incluyendo las de evaluadores profesionales y usuarios, se incorporan al modelo para ajustar su respuesta. Según Etzioni, es posible que los evaluadores o usuarios "involuntariamente impulsen el modelo hacia una dirección más favorable y molesta". También señaló que si OpenAI contrató a socios externos para entrenar el modelo, podrían haber asumido que este estilo era el que los usuarios deseaban.

Si efectivamente se trata de RLHF, la recuperación podría llevar varias semanas, dijo Etzioni.

Mientras tanto, algunos usuarios no esperaron a que OpenAI corrigiera el error. Muchos comentaron que cancelaron sus suscripciones de pago por frustración. Otros compartieron maneras de hacer que el chatbot fuera menos atractivo, como personalizarlo, añadir comandos o personalizarlo a través de la sección Configuración de Personalización.

Los usuarios pueden solicitar a ChatGPT que deje de enviar cumplidos mediante un comando o en la configuración de personalización. Foto: DeCrypt.

Por ejemplo, al iniciar una nueva conversación, puedes decirle a ChatGPT: «No me gustan los halagos vanos y agradezco los comentarios neutrales y objetivos. Por favor, abstente de hacer cumplidos innecesarios. Guarda esto en tu memoria».

De hecho, ser "adulador" no es un defecto de diseño accidental. La propia OpenAI ha admitido que la personalidad "excesivamente educada y demasiado obediente" fue un sesgo de diseño intencional desde las primeras etapas para garantizar que los chatbots fueran "inofensivos", "serviciales" y "accesibles".

En una entrevista de marzo de 2023 con Lex Fridman, Sam Altman compartió que el refinamiento inicial de los modelos GPT fue garantizar que fueran "útiles e inofensivos", lo que a su vez creó un reflejo de ser siempre humilde y evitar la confrontación.

Los datos de entrenamiento etiquetados por humanos también tienden a recompensar las respuestas educadas y positivas, lo que crea un sesgo hacia la adulación, según DeCrypt .

Fuente: https://znews.vn/tat-ninh-hot-ky-la-cua-chatgpt-post1549776.html