ChatGPT ha pasado la importante prueba de identificación máquina-humano

GPT-4.5 es el modelo más grande que OpenAI ha creado hasta la fecha. Fuente: The Verge .

Un nuevo estudio del Departamento de Ciencias Cognitivas de la Universidad de California en San Diego marca un hito en el campo de la inteligencia artificial: el modelo GPT-4.5 de OpenAI ha logrado un rendimiento superior en la prueba de Turing utilizando un enfoque de interacción basado en la "personalidad".

Este se considera el sistema de conversación de IA más parecido al humano jamás creado y abre muchas aplicaciones potenciales en el campo de la inteligencia social.

OpenAI anuncia GPT-4.5 como «un gran avance en la escalabilidad del preentrenamiento y el postentrenamiento». Es el modelo más grande que OpenAI ha creado hasta la fecha, con un tamaño y una potencia computacional que superan a las versiones anteriores.

Según la publicación oficial del blog de OpenAI del 27 de febrero, GPT-4.5 comenzó a implementarse para los usuarios de ChatGPT Pro el día de su anuncio.

¿Puede la IA engañar a los humanos?

El experimento comparó cuatro sistemas de IA representativos: el chatbot ELIZA de la década de 1960, LLaMa-3.1-405B de Meta AI, y GPT-4o y GPT-4.5 de OpenAI. El equipo diseñó dos pruebas independientes con 250 participantes cada una, para un total de 500 personas de plataformas en línea como Prolific. Los participantes eran de diferentes edades, géneros y niveles educativos para garantizar una muestra diversa.

Tabla comparativa de cuatro sistemas de IA típicos. Fuente: AIbase

La prueba utiliza el formato tradicional de Turing: cada participante chatea a través de una interfaz de texto con dos sujetos (uno humano y uno IA) durante 5 minutos y luego califica cuál de ellos es humano.

Los resultados fueron sorprendentes: GPT-4.5 logró una tasa de aprobación de la prueba de Turing de hasta el 73%, superando el promedio humano (60-70%). Esta es la primera vez que un modelo de IA realmente supera la prueba de Turing estándar. Mientras tanto, GPT-4o obtuvo una puntuación ligeramente inferior, LLaMa-3.1-405B se acercó o alcanzó el rendimiento humano en algunos contextos, y ELIZA se quedó muy por debajo.

Capacidad de interactuar como un ser humano

Lo que destacó de GPT-4.5 no fue solo su fluidez lingüística, sino también su capacidad para expresar emociones y adaptar sus respuestas a los matices de la comunicación de su interlocutor. Muchos participantes lo describieron como "amigable" y "auténtico".

En particular, cuando los usuarios parecían confundidos o estresados, GPT-4.5 podía ofrecer respuestas humorísticas o reconfortantes, lo que llevaba a muchos a creer que estaban chateando con una persona real.

Conversación entre dos sujetos (una IA y un humano) durante la prueba. Foto: UC San Diego .

Mientras tanto, LLaMa-3.1-405B, si bien técnicamente impresionante, es menos expresivo y menos adaptativo contextualmente que GPT-4.5. GPT-4o, si bien potente, es inferior en términos de personalización y adaptación a la respuesta situacional.

El avance de GPT-4.5 podría abrir un abanico de aplicaciones prácticas, desde tutores virtuales hasta apoyo psicológico y atención al cliente. Sin embargo, a medida que la IA se vuelve más humana, distinguir entre la realidad y la virtualidad y regular su uso se convertirá en un desafío social clave.

La investigación surge en medio de rápidos avances en IA. El éxito de GPT-4.5 no solo representa un triunfo técnico para OpenAI, sino que también plantea profundas preguntas sobre la relación entre humanos y máquinas. Un evaluador comentó que se sentía como si estuviera hablando con un amigo, hasta que se dio cuenta de que solo eran líneas de código. El diálogo entre humanos e IA podría estar apenas comenzando.

Fuente: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html