ChatGPT a réussi le test important de l'identification homme-machine

GPT-4.5 est le plus grand modèle jamais créé par OpenAI. Source : The Verge .

Une nouvelle étude du Département des sciences cognitives de l'Université de Californie à San Diego marque une étape importante dans le domaine de l'intelligence artificielle : le modèle GPT-4.5 d'OpenAI a obtenu des performances supérieures au test de Turing en utilisant une approche d'interaction basée sur la « personnalité ».

Il s’agit du système de conversation d’IA le plus proche de l’humain jamais créé, ouvrant de nombreuses applications potentielles dans le domaine de l’intelligence sociale.

OpenAI présente GPT-4.5 comme « une avancée majeure dans la mise à l'échelle des fonctions pré-entraînement et post-entraînement ». Il s'agit du plus grand modèle jamais développé par OpenAI, avec une taille et une puissance de calcul supérieures à celles des versions précédentes.

Selon le billet de blog officiel d'OpenAI du 27 février, GPT-4.5 a commencé à être déployé auprès des utilisateurs de ChatGPT Pro le jour de son annonce.

L’IA peut-elle tromper les humains ?

L'expérience a comparé quatre systèmes d'IA représentatifs : le chatbot ELIZA des années 1960, LLaMa-3.1-405B de Meta AI, et GPT-4o et GPT-4.5 d'OpenAI. L'équipe a conçu deux tests indépendants avec 250 participants chacun, pour un total de 500 personnes issues de plateformes en ligne comme Prolific. Les participants étaient d'âges, de sexes et de niveaux d'éducation différents afin de garantir la diversité de l'échantillon.

Tableau comparatif de quatre systèmes d'IA classiques. Source : AIbase

Le test utilise le format traditionnel de Turing : chaque participant discute via une interface textuelle avec deux sujets (un humain, une IA) pendant 5 minutes, puis évalue lequel est humain.

Les résultats ont été surprenants : GPT-4.5 a obtenu un taux de réussite au test de Turing de 73 %, dépassant la moyenne humaine (60-70 %). C’est la première fois qu’un modèle d’IA réussit réellement le test de Turing standard. Parallèlement, GPT-4o a obtenu un score légèrement inférieur, LLaMa-3.1-405B a approché ou atteint les performances humaines dans certains contextes, et ELIZA est resté loin derrière.

Capacité à interagir comme un humain

Ce qui distingue GPT-4.5, ce n'est pas seulement sa fluidité linguistique, mais aussi sa capacité à exprimer ses émotions et à adapter ses réponses aux nuances de la communication de son interlocuteur. De nombreux participants le qualifient de « convivial » et « authentique ».

En particulier, lorsque les utilisateurs semblent confus ou stressés, GPT-4.5 peut donner des réponses humoristiques ou réconfortantes, faisant croire à beaucoup qu'ils discutent avec une vraie personne.

Conversation entre deux sujets (une IA, un humain) pendant le test. Photo : UC San Diego .

Parallèlement, LLaMa-3.1-405B, bien que techniquement impressionnant, est moins expressif et moins adaptatif au contexte que GPT-4.5. GPT-4o, bien que puissant, est inférieur en termes de personnalisation et d'adaptation de la réponse situationnelle.

La percée de GPT-4.5 pourrait ouvrir la voie à de nombreuses applications pratiques, des tuteurs virtuels au soutien psychologique en passant par le service client. Mais à mesure que l'IA se rapproche de l'humain, distinguer la réalité de l'imaginaire et réguler l'utilisation de cette technologie deviendra un défi sociétal majeur.

Cette recherche intervient dans un contexte de progrès rapides en IA. Le succès de GPT-4.5 n'est pas seulement un triomphe technique pour OpenAI, il soulève également de profondes questions sur la relation entre humains et machines. Un testeur a confié avoir eu l'impression de parler à un ami, jusqu'à ce qu'il réalise qu'il ne s'agissait que de lignes de code. Le dialogue entre humains et IA ne fait peut-être que commencer.

Source : https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html