La nueva investigación de Apple sobre modelos de inferencia a gran escala está generando interés. Foto: Macrumors . |
Apenas tres años después de su lanzamiento, la inteligencia artificial ha comenzado a aparecer en muchas actividades cotidianas, como estudiar y trabajar. Muchos temen que pronto pueda reemplazar a los humanos.
Pero los nuevos modelos de IA no son tan inteligentes como creemos. Un hallazgo de una importante empresa tecnológica ha contribuido a reforzar esa creencia.
Todo el mundo sabe que "es demasiado difícil ignorarlo".
En un estudio recientemente publicado llamado “Pensamiento ilusorio”, el equipo de investigación de Apple afirma que los modelos de inferencia como Claude, DeepSeek-R1 y o3-mini en realidad no están “impulsados por el cerebro” como sugieren sus nombres.
La palabra inferencia debería sustituirse por «imitación». El grupo argumenta que estos modelos son simplemente eficientes para memorizar y repetir patrones. Pero cuando se cambia la pregunta o aumenta la complejidad, prácticamente colapsan.
En pocas palabras, los chatbots funcionan bien cuando pueden reconocer y relacionar patrones, pero una vez que el problema se vuelve demasiado complejo, no pueden resolverlo. «Los modelos de razonamiento a gran escala (LRM) de última generación sufren un colapso total de su precisión cuando la complejidad supera cierto umbral», señala el estudio.
Esto contradice la expectativa del desarrollador de que la complejidad mejorará con más recursos. «El esfuerzo de inferencia de la IA aumenta con la complejidad, pero solo hasta cierto punto, y luego disminuye, incluso si todavía hay suficiente presupuesto de tokens (potencia computacional) para gestionarla», añadió el estudio.
En este estudio, los investigadores revolucionaron el modelo de preguntas que se suele usar para responder preguntas. En lugar del examen de matemáticas habitual, introdujeron rompecabezas ingeniosamente diseñados como la Torre de Hanói, el Salto de Damas, el Cruce del Río y el Mundo de Bloques.
Cada juego de puzles tiene reglas sencillas y claras, con distintos niveles de complejidad, como la adición de más discos, bloques y agentes. El modelo de inferencia funciona mejor en dificultad media, pero pierde contra la versión normal en dificultad fácil. Cabe destacar que todo se desmorona por completo en dificultad difícil, como si la IA se hubiera rendido.
En el problema de la Torre de Hanói , el equipo no mejoró mucho el rendimiento del modelo de inferencia a pesar de alimentar el algoritmo de resolución de problemas. Algunos modelos funcionaron bien en el juego hasta los 100 niveles, pero solo lograron completar 5 pasos de forma incompleta en el problema de Cruzar el Río.
![]() |
En la Torre de Hanói, los jugadores deben mover y reposicionar los círculos según su tamaño. Foto: Wikipedia. |
Esto indica un bajo rendimiento de inferencia, así como una baja estabilidad de los modelos LRM. En medio del intenso debate sobre la capacidad de la IA para igualar a los humanos, este nuevo estudio de Apple demuestra lo contrario.
El descubrimiento de Apple no es nuevo
Gary Marcus, psicólogo y autor estadounidense, afirmó que los hallazgos de Apple eran impresionantes, pero no eran realmente nuevos y simplemente reforzaban investigaciones previas. El profesor emérito de psicología y neurociencia de la Universidad de Nueva York citó su estudio de 1998 como ejemplo.
En él, sostiene que las redes neuronales, precursoras de los grandes modelos lingüísticos, pueden generalizarse bien dentro de la distribución de los datos con los que fueron entrenadas, pero a menudo colapsan cuando se enfrentan a datos fuera de la distribución.
También cita argumentos presentados por el informático Subbarao Kambhampati, de la Universidad Estatal de Arizona, en los últimos años. El profesor Rao cree que las cadenas de pensamiento y los modelos de inferencia son inherentemente menos fiables de lo que muchos creen.
“La gente tiende a sobreantropomorfizar las trazas de inferencia de grandes modelos lingüísticos, llamándolos ‘pensamientos’ cuando tal vez no merezcan ese nombre”, dice el profesor, quien ha escrito una serie de artículos sobre cómo las secuencias de pensamiento generadas por los LLM no siempre reflejan con precisión lo que realmente hacen.
Una nueva investigación de Apple muestra que incluso la última generación de modelos de inferencia no es fiable fuera de sus datos de entrenamiento. Marcus afirma que tanto los modelos LLM como LRM tienen sus usos y son útiles en algunos casos. Sin embargo, los usuarios no deben confiar en ninguno de sus resultados.
Fuente: https://znews.vn/apple-doi-gao-nuoc-lanh-vao-ai-suy-luan-post1559526.html
Kommentar (0)