ChatGPT har bestått den viktige testen for maskin-menneskelig identifikasjon

GPT-4.5 er den største modellen OpenAI noensinne har bygget. Kilde: The Verge .

En ny studie fra Institutt for kognitiv vitenskap ved University of California, San Diego markerer en milepæl innen kunstig intelligens: OpenAIs GPT-4.5-modell har oppnådd overlegen ytelse på Turing-testen ved hjelp av en «personlighetsbasert» interaksjonstilnærming.

Dette regnes som det mest menneskelignende AI-samtalesystemet noensinne, og åpner for mange potensielle bruksområder innen sosial intelligens.

GPT-4.5 omtales av OpenAI som «et stort sprang fremover i skalering av før- og ettertrening». Det er den største modellen OpenAI noensinne har bygget, med en størrelse og beregningskraft som overgår tidligere versjoner.

I følge OpenAIs offisielle blogginnlegg 27. februar begynte GPT-4.5 å rulles ut til ChatGPT Pro-brukere samme dag som det ble annonsert.

Kan AI lure mennesker?

Eksperimentet sammenlignet fire representative AI-systemer: chatboten ELIZA fra 1960-tallet, Meta AIs LLaMa-3.1-405B og OpenAIs GPT-4o og GPT-4.5. Teamet utviklet to uavhengige tester med 250 deltakere hver, for totalt 500 personer fra nettplattformer som Prolific. Deltakerne var i ulik alder, kjønn og utdanningsnivå for å sikre et mangfoldig utvalg.

Sammenligningstabell for fire typiske AI-systemer. Kilde: AIbase

Testen bruker det tradisjonelle Turing-formatet: hver deltaker chatter via et tekstgrensesnitt med to forsøkspersoner (ett menneske, en AI) i 5 minutter, og vurderer deretter hvilken som er menneske.

Resultatene var overraskende: GPT-4.5 oppnådde en bestått Turing-testrate på opptil 73 %, noe som overgikk gjennomsnittet for mennesker (60–70 %). Dette er første gang en AI-modell faktisk har «bestått» standard Turing-testen. GPT-4o scoret litt lavere, LLaMa-3.1-405B nærmet seg eller oppnådde menneskelig ytelse i noen sammenhenger, og ELIZA var langt fra det.

Evne til å samhandle som et menneske

Det som skilte seg ut med GPT-4.5 var ikke bare språkets flyt, men også evnen til å uttrykke følelser og tilpasse responsene til nyansene i samtalepartnerens kommunikasjon. Mange deltakere beskrev den som «vennlig» og «autentisk».

Spesielt når brukere virket forvirrede eller stressede, kunne GPT-4.5 tilby humoristiske eller trøstende svar, noe som fikk mange til å tro at de chattet med en ekte person.

Samtale mellom to forsøkspersoner (en AI, en menneske) under testen. Foto: UC San Diego .

Samtidig er LLaMa-3.1-405B, selv om den er teknisk imponerende, mindre uttrykksfull og mindre kontekstuelt tilpasningsdyktig enn GPT-4.5. GPT-4o er kraftig, men dårligere når det gjelder personalisering og tilpasning til situasjonsresponser.

GPT-4.5-gjennombruddet kan åpne for en rekke praktiske anvendelser, fra virtuelle veiledere til psykologisk støtte og kundeservice. Men etter hvert som AI blir mer menneskelignende, vil det å skille mellom virkelighet og virtualitet og regulere hvordan denne teknologien brukes bli en sentral samfunnsutfordring.

Forskningen kommer midt i raske fremskritt innen AI. Suksessen til GPT-4.5 er ikke bare en teknisk triumf for OpenAI, men reiser også dype spørsmål om forholdet mellom mennesker og maskiner. En tester kommenterte at det føltes som om han snakket med en venn – helt til han innså at det bare var kodelinjer. Dialogen mellom mennesker og AI har kanskje bare så vidt begynt.

Kilde: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html