ChatGPT har klarat det viktiga testet för identifiering mellan maskiner och människor

GPT-4.5 är den största modellen som OpenAI någonsin har byggt. Källa: The Verge .

En ny studie från institutionen för kognitionsvetenskap vid University of California, San Diego, markerar en milstolpe inom artificiell intelligens: OpenAI:s GPT-4.5-modell har uppnått överlägsna prestanda på Turing-testet med hjälp av en "personlighetsbaserad" interaktionsmetod.

Detta anses vara det mest människolika AI-konversationssystemet någonsin, vilket öppnar upp för många potentiella tillämpningar inom social intelligens.

GPT-4.5 marknadsförs av OpenAI som "ett stort steg framåt i att skala upp för- och efterträning." Det är den största modellen OpenAI någonsin har byggt, med en storlek och beräkningskraft som överträffar tidigare versioner.

Enligt OpenAIs officiella blogginlägg den 27 februari började GPT-4.5 rullas ut till ChatGPT Pro-användare samma dag som det tillkännagavs.

Kan AI lura människor?

Experimentet jämförde fyra representativa AI-system: chatboten ELIZA från 1960-talet, Meta AI:s LLaMa-3.1-405B och OpenAI:s GPT-4o och GPT-4.5. Teamet utformade två oberoende tester med 250 deltagare vardera, för totalt 500 personer från onlineplattformar som Prolific. Deltagarna var i olika åldrar, kön och utbildningsnivåer för att säkerställa ett mångsidigt urval.

Jämförelsetabell över fyra typiska AI-system. Källa: AIbase

Testet använder det traditionella Turing-formatet: varje deltagare chattar via ett textgränssnitt med två försökspersoner (en människa, en AI) i 5 minuter och betygsätter sedan vilken som är människa.

Resultaten var överraskande: GPT-4.5 uppnådde en andel som klarade Turing-testet på upp till 73 %, vilket överträffade det mänskliga genomsnittet (60–70 %). Detta är första gången en AI-modell faktiskt har "klarat" det vanliga Turing-testet. Samtidigt fick GPT-4o något lägre poäng, LLaMa-3.1-405B närmade sig eller uppnådde mänsklig prestanda i vissa sammanhang, och ELIZA låg långt ifrån.

Förmåga att interagera som en människa

Det som utmärkte sig med GPT-4.5 var inte bara dess flytande språk, utan också dess förmåga att uttrycka känslor och anpassa sina svar till nyanserna i samtalspartnerns kommunikation. Många deltagare beskrev den som "vänlig" och "autentisk".

Det är värt att notera att när användare verkade förvirrade eller stressade kunde GPT-4.5 erbjuda humoristiska eller tröstande svar, vilket fick många att tro att de chattade med en riktig person.

Samtal mellan två försökspersoner (en AI, en människa) under testet. Foto: UC San Diego .

Samtidigt är LLaMa-3.1-405B, även om den är tekniskt imponerande, mindre uttrycksfull och mindre kontextuellt anpassningsbar än GPT-4.5. GPT-4o, även om den är kraftfull, är sämre när det gäller personalisering och situationsanpassning.

Genombrottet inom GPT-4.5 skulle kunna öppna upp för en rad praktiska tillämpningar, från virtuella handledare till psykologiskt stöd och kundvård. Men i takt med att AI blir mer människoliknande kommer det att bli en viktig samhällsutmaning att skilja mellan verklighet och virtualitet och att reglera hur denna teknik används.

Forskningen kommer mitt i snabba framsteg inom AI. Framgången med GPT-4.5 är inte bara en teknisk triumf för OpenAI, utan väcker också djupa frågor om förhållandet mellan människor och maskiner. En testare kommenterade att det kändes som att han pratade med en vän – tills han insåg att allt bara var rader kod. Dialogen mellan människor och AI kan bara ha börjat.

Källa: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html