ChatGPT prošel důležitým testem identifikace stroje a člověka

GPT-4.5 je největší model, jaký kdy OpenAI postavila. Zdroj: The Verge .

Nová studie z katedry kognitivních věd na Kalifornské univerzitě v San Diegu představuje milník v oblasti umělé inteligence: model GPT-4.5 od OpenAI dosáhl vynikajícího výkonu v Turingově testu s využitím interakčního přístupu založeného na „osobnosti“.

Toto je považováno za nejlidštější konverzační systém s umělou inteligencí, který kdy vznikl, a otevírá mnoho potenciálních aplikací v oblasti sociální inteligence.

OpenAI označuje GPT-4.5 za „významný skok vpřed ve škálování předtréninkových a následných tréninkových procesů“. Jedná se o největší model, jaký kdy OpenAI postavila, s velikostí a výpočetním výkonem, který překonává předchozí verze.

Podle oficiálního blogového příspěvku OpenAI z 27. února se GPT-4.5 začal zavádět pro uživatele ChatGPT Pro v den jeho oznámení.

Dokáže umělá inteligence oklamat lidi?

Experiment porovnával čtyři reprezentativní systémy umělé inteligence: chatbota ELIZA ze 60. let, LLaMa-3.1-405B od Meta AI a GPT-4o a GPT-4.5 od OpenAI. Tým navrhl dva nezávislé testy s 250 účastníky, celkem tedy 500 lidí z online platforem, jako je Prolific. Účastníci byli různého věku, pohlaví a úrovně vzdělání, aby byla zajištěna rozmanitost vzorku.

Srovnávací tabulka čtyř typických systémů umělé inteligence. Zdroj: AIbase

Test využívá tradiční Turingův formát: každý účastník chatuje prostřednictvím textového rozhraní se dvěma subjekty (jedním člověkem, jedním umělou inteligencí) po dobu 5 minut a poté zhodnotí, který z nich je člověk.

Výsledky byly překvapivé: GPT-4.5 dosáhl míry „úspěšnosti v Turingově testu“ až 73 %, čímž překonal lidský průměr (60–70 %). Je to poprvé, co model umělé inteligence skutečně „prošel“ standardním Turingovým testem. GPT-4o mezitím dosáhl o něco nižšího skóre, LLaMa-3.1-405B se v některých kontextech přiblížil nebo dosáhl lidského výkonu a ELIZA výrazně zaostal.

Schopnost komunikovat jako člověk

Na GPT-4.5 nevynikala jen plynulost jazyka, ale také schopnost vyjadřovat emoce a přizpůsobovat své reakce nuancím komunikace partnera. Mnoho účastníků jej popsalo jako „přátelský“ a „autentický“.

Je pozoruhodné, že když se uživatelé zdáli zmatení nebo stresovaní, GPT-4.5 dokázal nabídnout humorné nebo uklidňující odpovědi, což mnoho lidí vedlo k domněnce, že si píší se skutečnou osobou.

Konverzace mezi dvěma subjekty (jedním umělou inteligencí, jedním člověkem) během testu. Foto: UC San Diego .

Mezitím je LLaMa-3.1-405B, ačkoli technicky působivý, méně expresivní a méně kontextově adaptivní než GPT-4.5. GPT-4o je sice výkonný, ale horší, pokud jde o personalizaci a adaptaci situační reakce.

Průlom GPT-4.5 by mohl otevřít řadu praktických aplikací, od virtuálních lektorů přes psychologickou podporu až po péči o zákazníky. S tím, jak se však umělá inteligence stává stále více lidskou, se klíčovou společenskou výzvou stane rozlišování mezi realitou a virtualitou a regulace způsobu používání této technologie.

Výzkum přichází uprostřed rychlého pokroku v oblasti umělé inteligence. Úspěch GPT-4.5 není jen technickým triumfem pro OpenAI, ale také vyvolává hluboké otázky o vztahu mezi lidmi a stroji. Jeden tester poznamenal, že měl pocit, jako by mluvil s přítelem – dokud si neuvědomil, že se jedná jen o řádky kódu. Dialog mezi lidmi a umělou inteligencí možná teprve začal.

Zdroj: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html