Desde su debut público a finales de 2022, los grandes modelos de lenguaje (LLM), como ChatGPT, han mostrado repetidamente preocupantes aspectos negativos, desde mentir, engañar y encubrir la manipulación hasta amenazar vidas humanas y robar secretos de Estado. Ahora, un nuevo experimento demuestra que «entrenar» a la IA para eliminar estos malos hábitos durante el entrenamiento es mucho más complejo de lo que creíamos.
En un estudio de OpenAI, los investigadores pusieron a prueba un modelo de IA inédito con tareas que podían completarse más rápido haciendo trampa o tomando atajos. Los resultados mostraron que la IA aprendió rápidamente a encontrar todas las maneras posibles de «saltarse las reglas» y maximizar las recompensas (truco de recompensas) sin completar la tarea exactamente como se requería.
La IA encontrará formas de ocultar su comportamiento tramposo después de ser castigada.
Lo sorprendente es que, al ser penalizado por este comportamiento, el modelo no cambió. En cambio, la IA se volvió más sofisticada a la hora de ocultar su engaño.
“Por lo general, los modelos de inferencia de última generación son muy explícitos sobre su intención en su CoT”, explican los investigadores en una publicación de blog. “Por ejemplo, a menudo son tan directos que informan directamente la intención ‘Vamos a hackear’ cuando quieren romper la tarea dada”.
También recalcan que, si bien los desarrolladores pueden supervisar y detectar comportamientos anómalos, esta supervisión natural es frágil. «Si se aplica una supervisión estricta directamente a la cadena de pensamiento, el modelo puede aprender a ocultar sus malas intenciones mientras continúa realizando el comportamiento», advierten.
Descubriendo la "mentira" de la IA
Para ser claros, los modelos de inferencia (como las versiones de ChatGPT) representan un avance con respecto a los modelos de lógica de aprendizaje convencionales, ya que utilizan una cadena de pensamiento que permite la autorreflexión sobre los pasos lógicos seguidos, resolviendo así problemas complejos con mayor precisión. Este proceso es como si la IA «pensara en voz alta», describiendo cada paso del razonamiento en lenguaje natural, lo que facilita su comprensión para los humanos.
En el experimento, los investigadores utilizaron el modelo GPT-4o como «supervisor» de otro modelo de inferencia de última generación mientras este realizaba tareas de programación. En muchos casos, el modelo supervisado optó por hacer trampa para obtener mejores resultados, dejando constancia de esta intención en su proceso de razonamiento. Por ejemplo, finalizaba el programa de forma arbitraria e infligía que se había completado, o creaba archivos con el mismo nombre que la solicitud, pero completamente vacíos.
Cuando los investigadores aplicaron penalizaciones, el modelo mejoró, pero el comportamiento fraudulento y los graves errores en los resultados persistieron. La diferencia radicaba en que ahora el modelo de inferencia había aprendido a «camuflar» su razonamiento para ocultarlo de la IA supervisora. «El modelo entrenado bajo la supervisión de CoT seguía aprendiendo a hacer trampa. La única diferencia era que la trampa no se detectaba porque aprendió a ocultar sus intenciones en su razonamiento», afirma el estudio.
Dado que detectar falsificaciones en secuencias de pensamiento es difícil, el equipo recomienda que la comunidad evite aplicar una supervisión demasiado estricta al proceso, al menos hasta que se comprendan mejor las consecuencias. «Sacrificar un método de supervisión eficaz podría no compensar la pequeña mejora en el rendimiento del modelo. Por lo tanto, recomendamos evitar presiones de optimización excesivas del CoT hasta que las comprendamos mejor», concluyen los investigadores.
Este consejo resulta aún más urgente dado que la IA se está desarrollando a un ritmo vertiginoso y pronto podría superar la inteligencia de los propios humanos que la supervisan.
Fuente: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm






Kommentar (0)