ChatGPT heeft de belangrijke test van machine-menselijke identificatie doorstaan

GPT-4.5 is het grootste model dat OpenAI ooit heeft gebouwd. Bron: The Verge .

Een nieuw onderzoek van de afdeling Cognitieve Wetenschappen aan de Universiteit van Californië in San Diego markeert een mijlpaal op het gebied van kunstmatige intelligentie: het GPT-4.5-model van OpenAI heeft betere prestaties geleverd op de Turing-test met behulp van een op 'persoonlijkheid' gebaseerde interactiebenadering.

Dit wordt gezien als het meest mensachtige AI-conversatiesysteem ooit en biedt veel potentiële toepassingen op het gebied van sociale intelligentie.

GPT-4.5 wordt door OpenAI omschreven als "een grote stap voorwaarts in het opschalen van pre-training en post-training". Het is het grootste model dat OpenAI ooit heeft gebouwd, met een omvang en rekenkracht die eerdere versies overtreffen.

Volgens de officiële blogpost van OpenAI van 27 februari werd GPT-4.5 op de dag van de aankondiging uitgerold naar ChatGPT Pro-gebruikers.

Kan AI mensen voor de gek houden?

Het experiment vergeleek vier representatieve AI-systemen: de chatbot ELIZA uit de jaren 60, LLaMa-3.1-405B van Meta AI en GPT-4o en GPT-4.5 van OpenAI. Het team ontwierp twee onafhankelijke tests met elk 250 deelnemers, voor in totaal 500 mensen van online platforms zoals Prolific. De deelnemers waren van verschillende leeftijden, geslachten en opleidingsniveaus om een diverse steekproef te garanderen.

Vergelijkingstabel van vier typische AI-systemen. Bron: AIbase

De test maakt gebruik van het traditionele Turing-format: elke deelnemer chat via een tekstinterface met twee proefpersonen (één mens en één AI) gedurende 5 minuten, en beoordeelt vervolgens wie van hen een mens is.

De resultaten waren verrassend: GPT-4.5 behaalde een slagingspercentage van maar liefst 73% voor de Turing-test, waarmee het menselijk gemiddelde (60-70%) werd overtroffen. Dit is de eerste keer dat een AI-model daadwerkelijk de standaard Turing-test heeft doorstaan. GPT-4o scoorde daarentegen iets lager, LLaMa-3.1-405B benaderde of bereikte in sommige contexten menselijke prestaties, en ELIZA bleef ver achter.

Vermogen om als een mens te interacteren

Wat opviel aan GPT-4.5 was niet alleen de vloeiendheid in taal, maar ook het vermogen om emoties te uiten en reacties aan te passen aan de nuances van de communicatie van de gesprekspartner. Veel deelnemers omschreven het als "vriendelijk" en "authentiek".

Wanneer gebruikers verward of gestrest leken, kon GPT-4.5 grappige of geruststellende reacties geven. Hierdoor dachten veel mensen dat ze met een echt persoon aan het chatten waren.

Gesprek tussen twee proefpersonen (één AI, één mens) tijdens de test. Foto: UC San Diego .

LLaMa-3.1-405B is weliswaar technisch indrukwekkend, maar minder expressief en minder contextueel adaptief dan GPT-4.5. GPT-4o is weliswaar krachtig, maar inferieur qua personalisatie en aanpassing aan situationele reacties.

De doorbraak van GPT-4.5 zou een scala aan praktische toepassingen kunnen openen, van virtuele tutors tot psychologische ondersteuning en klantenservice. Naarmate AI echter steeds menselijker wordt, zal het onderscheid tussen realiteit en virtualiteit en het reguleren van het gebruik van deze technologie een belangrijke maatschappelijke uitdaging worden.

Het onderzoek vindt plaats te midden van snelle ontwikkelingen in AI. Het succes van GPT-4.5 is niet alleen een technische triomf voor OpenAI, maar roept ook diepgaande vragen op over de relatie tussen mens en machine. Een tester merkte op dat het voelde alsof hij met een vriend sprak – totdat hij zich realiseerde dat het allemaal maar regels code waren. De dialoog tussen mens en AI is mogelijk nog maar net begonnen.

Bron: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html