ChatGPT zdał ważny test identyfikacji maszyny i człowieka

GPT-4.5 to największy model, jaki kiedykolwiek zbudowała firma OpenAI. Źródło: The Verge .

Nowe badanie przeprowadzone przez Wydział Nauk Kognitywnych Uniwersytetu Kalifornijskiego w San Diego stanowi kamień milowy w dziedzinie sztucznej inteligencji: model GPT-4.5 firmy OpenAI osiągnął lepsze wyniki w teście Turinga, wykorzystując podejście interakcyjne oparte na „osobowości”.

Uważa się, że jest to najbardziej przypominający człowieka system konwersacyjny oparty na sztucznej inteligencji, jaki kiedykolwiek stworzono, co otwiera wiele potencjalnych zastosowań w dziedzinie inteligencji społecznej.

OpenAI określa GPT-4.5 jako „ogromny krok naprzód w skalowaniu procesów przed i po treningu”. Jest to największy model, jaki kiedykolwiek zbudowało OpenAI, o rozmiarze i mocy obliczeniowej przewyższającej poprzednie wersje.

Według oficjalnego wpisu na blogu OpenAI z 27 lutego, GPT-4.5 udostępniono użytkownikom ChatGPT Pro w dniu jego ogłoszenia.

Czy sztuczna inteligencja może oszukać ludzi?

W eksperymencie porównano cztery reprezentatywne systemy sztucznej inteligencji: chatbota ELIZA z lat 60., LLaMa-3.1-405B firmy Meta AI oraz GPT-4o i GPT-4.5 firmy OpenAI. Zespół zaprojektował dwa niezależne testy, każdy z 250 uczestnikami, co dało łącznie 500 osób z platform internetowych, takich jak Prolific. Uczestnicy byli w różnym wieku, płci i o różnym poziomie wykształcenia, aby zapewnić różnorodność próby.

Tabela porównawcza czterech typowych systemów AI. Źródło: AIbase

Test wykorzystuje tradycyjny format Turinga: każdy uczestnik rozmawia za pośrednictwem interfejsu tekstowego z dwoma osobami (jednym człowiekiem i jedną sztuczną inteligencją) przez 5 minut, a następnie ocenia, który z nich jest człowiekiem.

Wyniki były zaskakujące: GPT-4.5 osiągnął wskaźnik „zdanego testu Turinga” na poziomie aż 73%, przewyższając średnią dla ludzi (60-70%). To pierwszy raz, kiedy model sztucznej inteligencji faktycznie „zdał” standardowy test Turinga. Tymczasem GPT-4o uzyskał nieco niższy wynik, LLaMa-3.1-405B zbliżył się lub osiągnął poziom ludzki w niektórych kontekstach, a ELIZA wypadła znacznie gorzej.

Umiejętność interakcji jak człowiek

Tym, co wyróżniało GPT-4.5, była nie tylko płynność językowa, ale także zdolność do wyrażania emocji i dostosowywania reakcji do niuansów komunikacji rozmówcy. Wielu uczestników określiło go jako „przyjazny” i „autentyczny”.

Warto zauważyć, że gdy użytkownicy wydawali się zdezorientowani lub zestresowani, GPT-4.5 mógł udzielać zabawnych lub pocieszających odpowiedzi, dzięki czemu wielu z nich myślało, że rozmawiają z prawdziwą osobą.

Rozmowa między dwoma osobami (sztuczną inteligencją i człowiekiem) podczas testu. Zdjęcie: UC San Diego .

Tymczasem LLaMa-3.1-405B, choć technicznie imponujący, jest mniej ekspresyjny i mniej adaptacyjny do kontekstu niż GPT-4.5. GPT-4o, choć wydajny, ustępuje mu pod względem personalizacji i adaptacji do sytuacji.

Przełom GPT-4.5 może otworzyć szereg praktycznych zastosowań, od wirtualnych korepetytorów, przez wsparcie psychologiczne, po obsługę klienta. Jednak w miarę jak sztuczna inteligencja staje się coraz bardziej ludzka, rozróżnianie rzeczywistości od wirtualności oraz regulowanie sposobu korzystania z tej technologii stanie się kluczowym wyzwaniem społecznym.

Badania te wpisują się w dynamiczny postęp w dziedzinie sztucznej inteligencji. Sukces GPT-4.5 to nie tylko techniczny triumf OpenAI, ale także rodzi głębokie pytania dotyczące relacji między ludźmi a maszynami. Jeden z testerów stwierdził, że czuł się, jakby rozmawiał z przyjacielem – dopóki nie zdał sobie sprawy, że to tylko linijki kodu. Dialog między ludźmi a sztuczną inteligencją mógł dopiero się rozpocząć.

Source: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html