ChatGPT пройшов важливий тест на ідентифікацію машини та людини

GPT-4.5 – найбільша модель, яку коли-небудь створював OpenAI. Джерело: The Verge .

Нове дослідження кафедри когнітивних наук Каліфорнійського університету в Сан-Дієго знаменує собою важливу віху в галузі штучного інтелекту: модель OpenAI GPT-4.5 досягла чудових результатів у тесті Тюрінга, використовуючи підхід до взаємодії на основі «особистості».

Це вважається найбільш схожою на людину системою розмов на основі штучного інтелекту, що відкриває багато потенційних застосувань у сфері соціального інтелекту.

OpenAI рекламує GPT-4.5 як «значний крок вперед у масштабуванні перед- та післятренувальних робіт». Це найбільша модель, яку OpenAI коли-небудь створював, з розміром та обчислювальною потужністю, що перевершує попередні версії.

Згідно з офіційною публікацією в блозі OpenAI від 27 лютого, розгортання GPT-4.5 для користувачів ChatGPT Pro почалося в день його анонсу.

Чи може ШІ обдурити людей?

В експерименті порівнювали чотири репрезентативні системи штучного інтелекту: чат-бот ELIZA 1960-х років, LLaMa-3.1-405B від Meta AI та GPT-4o та GPT-4.5 від OpenAI. Команда розробила два незалежні тести з 250 учасниками кожен, загалом 500 людей з онлайн-платформ, таких як Prolific. Учасники були різного віку, статі та рівня освіти, щоб забезпечити різноманітну вибірку.

Порівняльна таблиця чотирьох типових систем штучного інтелекту. Джерело: AIbase

Тест використовує традиційний формат Тюрінга: кожен учасник спілкується через текстовий інтерфейс з двома суб'єктами (одним людиною, одним штучним інтелектом) протягом 5 хвилин, а потім оцінює, хто з них людина.

Результати були несподіваними: GPT-4.5 досяг рівня «проходження тесту Тюрінга» до 73%, перевищивши середній показник для людини (60-70%). Це перший випадок, коли модель штучного інтелекту фактично «пройшла» стандартний тест Тюрінга. Тим часом GPT-4o набрав трохи нижчий бал, LLaMa-3.1-405B наблизився або досяг людської продуктивності в деяких контекстах, а ELIZA значно відстав.

Здатність взаємодіяти як людина

GPT-4.5 вирізнявся не лише вільним володінням мовою, а й здатністю виражати емоції та адаптувати свої реакції до нюансів спілкування співрозмовника. Багато учасників описували його як «дружній» та «автентичний».

Примітно, що коли користувачі виглядали розгубленими або напруженими, GPT-4.5 міг пропонувати гумористичні або заспокійливі відповіді, що змушувало багатьох думати, що вони спілкуються зі справжньою людиною.

Розмова між двома суб'єктами (одним штучним інтелектом, однією людиною) під час тесту. Фото: Каліфорнійський університет у Сан-Дієго .

Тим часом, LLaMa-3.1-405B, хоча й технічно вражаючий, є менш виразним та менш контекстуально адаптивним, ніж GPT-4.5. GPT-4o, хоча й потужний, поступається з точки зору персоналізації та адаптації до ситуаційної реакції.

Прорив GPT-4.5 може відкрити низку практичних застосувань, від віртуальних репетиторів до психологічної підтримки та обслуговування клієнтів. Однак, оскільки штучний інтелект стає все більш схожим на людину, розрізнення реальності та віртуальності й регулювання використання цієї технології стане ключовим суспільним викликом.

Дослідження відбувається на тлі стрімкого розвитку штучного інтелекту. Успіх GPT-4.5 є не лише технічним тріумфом для OpenAI, але й порушує глибокі питання щодо взаємозв'язку між людьми та машинами. Один тестувальник зазначив, що йому здавалося, ніби він розмовляє з другом, поки він не зрозумів, що це все лише рядки коду. Діалог між людьми та штучним інтелектом, можливо, тільки почався.

Джерело: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html