¿Puede realmente pensar la IA?

Empresas como OpenAI y DeepSeek están ampliando los límites de los chatbots lógicos, que pueden desempeñarse mejor en ciertas tareas computacionales.

ZNews•06/04/2025

El chatbot de OpenAI mejora constantemente gracias a las nuevas tecnologías. Foto: New York Times .

En septiembre de 2024, OpenAI lanzó ChatGPT, una versión de la IA que integra el modelo o1, capaz de razonar en tareas relacionadas con las matemáticas, la ciencia y la programación informática.

A diferencia de la versión anterior de ChatGPT, la nueva tecnología tomará tiempo para "pensar" en soluciones a problemas complejos antes de proporcionar una respuesta.

Tras OpenAI, muchos competidores como Google, Anthropic y DeepSeek también han introducido modelos de razonamiento similares. Aunque no es perfecta, sigue siendo una tecnología de actualización de chatbots en la que confían muchos desarrolladores.

Cómo razona la IA

Básicamente, el razonamiento significa que los chatbots pueden dedicar más tiempo a resolver los problemas planteados por los usuarios.

"El razonamiento es la forma en que el sistema realiza trabajo adicional después de recibir una pregunta", dijo Dan Klein, profesor de informática de la Universidad de California, al New York Times .

Un sistema lógico puede dividir un problema en pasos individuales más pequeños o resolverlo mediante prueba y error.

En su lanzamiento inicial, ChatGPT podía responder preguntas al instante extrayendo y sintetizando información. En cambio, los sistemas de razonamiento necesitaban unos segundos (o incluso minutos) más para resolver el problema y proporcionar una respuesta.

AI ly luan, OpenAI o1 va ChatGPT, mo hinh ly luan, tri tue nhan tao anh 1

Ejemplo del proceso de razonamiento del modelo O1 en un chatbot de atención al cliente. Imagen: OpenAI .

En algunos casos, el sistema de razonamiento cambiará su enfoque del problema, mejorando continuamente la solución. Además, el modelo puede probar múltiples soluciones antes de tomar la decisión óptima o comprobar la precisión de respuestas anteriores.

En general, el sistema de razonamiento considerará todas las posibles respuestas a la pregunta. Esto es similar a lo que ocurre cuando los estudiantes de primaria anotan muchas opciones en un papel antes de elegir la solución más adecuada a un problema de matemáticas.

Según el New York Times , la IA ya es capaz de razonar sobre casi cualquier tema. Sin embargo, será más eficaz en cuestiones relacionadas con las matemáticas, la ciencia y la programación informática.

¿Cómo se entrena el sistema teórico?

En un chatbot típico, los usuarios aún pueden solicitar explicaciones del proceso o verificar la precisión de la respuesta. De hecho, muchos conjuntos de datos de entrenamiento de ChatGPT ya incluyen procedimientos de resolución de problemas.

El sistema de razonamiento se vuelve aún más avanzado cuando puede realizar operaciones sin intervención del usuario. Este proceso es más complejo y extenso. Las empresas utilizan el término "razonamiento" porque el sistema funciona de forma similar al pensamiento humano.

Muchas empresas, como OpenAI, esperan que los sistemas de razonamiento sean la mejor solución para mejorar los chatbots disponibles actualmente. Durante años, creyeron que los chatbots funcionaban mejor cuanto más información se les proporcionaba en internet.

Para 2024, los sistemas de IA habrán consumido casi todo el texto disponible en internet. Esto significa que las empresas necesitan encontrar nuevas soluciones para mejorar los chatbots, incluyendo sistemas de razonamiento.

AI ly luan, OpenAI o1 va ChatGPT, mo hinh ly luan, tri tue nhan tao anh 2

La startup DeepSeek causó sensación con su modelo de razonamiento, que tenía costos más bajos que OpenAI. Foto: Bloomberg .

Desde el año pasado, empresas como OpenAI se han centrado en técnicas de aprendizaje por refuerzo. Este proceso suele durar varios meses, durante los cuales la IA aprende el comportamiento mediante ensayo y error.

Por ejemplo, al resolver miles de problemas, el sistema puede identificar el método óptimo para llegar a la respuesta correcta. A partir de ahí, los investigadores construyen sofisticados mecanismos de retroalimentación que ayudan al sistema a distinguir entre soluciones correctas e incorrectas.

"Es similar a cómo se entrena a un perro. Si el sistema funciona bien, se le da un premio. Si no, se dice: 'Ese perro se ha portado mal'", compartió Jerry Tworek, investigador de OpenAI.

¿Es la IA el futuro?

Según el New York Times , las técnicas de aprendizaje por refuerzo son eficaces al abordar requisitos en matemáticas, ciencias y programación informática. En estos campos, es posible definir claramente las respuestas correctas o incorrectas.

Por el contrario, el aprendizaje por refuerzo es ineficaz en la escritura, la filosofía o la ética, campos donde es difícil distinguir entre lo bueno y lo malo. Sin embargo, los investigadores afirman que esta técnica puede mejorar el rendimiento de la IA, incluso con preguntas no matemáticas.

"Los sistemas aprenderán los caminos que conducen a resultados positivos y negativos", afirmó Jared Kaplan, director científico de Anthropic.

AI ly luan, OpenAI o1 va ChatGPT, mo hinh ly luan, tri tue nhan tao anh 3

Sitio web de Anthropic, la startup propietaria del modelo de IA de Claude. Foto: Bloomberg .

Es importante tener en cuenta que el aprendizaje por refuerzo y los sistemas de razonamiento son dos conceptos diferentes. En concreto, el aprendizaje por refuerzo es un método para construir sistemas de razonamiento. Esta es la etapa final del entrenamiento para que los chatbots puedan razonar.

Dado que aún es relativamente nuevo, los científicos aún no pueden estar seguros de si el razonamiento de los chatbots o el aprendizaje por refuerzo pueden ayudar a la IA a pensar como los humanos. Cabe destacar que muchas tendencias actuales de entrenamiento de IA se desarrollan muy rápidamente al principio y luego se ralentizan gradualmente.

Además, el razonamiento de los chatbots aún puede cometer errores. Basándose en la probabilidad, el sistema elegirá el proceso que más se asemeje a los datos que ha aprendido, ya sea de internet o mediante aprendizaje por refuerzo. Por lo tanto, los chatbots aún pueden elegir soluciones incorrectas o ilógicas.

Fuente: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html