ChatGPT прошёл важный тест на идентификацию машины и человека

GPT-4.5 — самая масштабная модель, когда-либо созданная OpenAI. Источник: The Verge .

Новое исследование кафедры когнитивных наук Калифорнийского университета в Сан-Диего знаменует собой важную веху в области искусственного интеллекта: модель GPT-4.5 от OpenAI достигла превосходных результатов в тесте Тьюринга, используя подход взаимодействия, основанный на «личности».

Это считается наиболее похожей на человека системой общения на основе искусственного интеллекта, открывающей множество потенциальных возможностей применения в области социального интеллекта.

OpenAI позиционирует GPT-4.5 как «значительный шаг вперёд в масштабировании предобучения и постобучения». Это самая крупная модель, когда-либо созданная OpenAI, превосходящая по размеру и вычислительной мощности предыдущие версии.

Согласно официальному сообщению в блоге OpenAI от 27 февраля, GPT-4.5 начал распространяться среди пользователей ChatGPT Pro в день своего анонса.

Может ли ИИ обмануть людей?

В ходе эксперимента сравнивались четыре репрезентативные системы искусственного интеллекта: чат-бот ELIZA 1960-х годов, LLaMa-3.1-405B от Meta AI, а также GPT-4o и GPT-4.5 от OpenAI. Команда разработала два независимых теста, в каждом из которых участвовало по 250 человек, всего 500 человек с онлайн-платформ, таких как Prolific. Участники были разного возраста, пола и уровня образования, чтобы обеспечить разнообразие выборки.

Сравнительная таблица четырёх типичных систем искусственного интеллекта. Источник: AIbase.

Тест использует традиционный формат Тьюринга: каждый участник общается посредством текстового интерфейса с двумя испытуемыми (один человек, один ИИ) в течение 5 минут, а затем определяет, кто из них человек.

Результаты оказались неожиданными: GPT-4.5 достигла уровня «прохождения теста Тьюринга» до 73%, превзойдя средний человеческий показатель (60-70%). Это первый случай, когда модель ИИ действительно «прошла» стандартный тест Тьюринга. В то же время, GPT-4o показала несколько худшие результаты, LLaMa-3.1-405B приблизилась к человеческому уровню или достигла его в некоторых контекстах, а ELIZA значительно уступила.

Способность взаимодействовать как человек

GPT-4.5 выделялся не только своей беглостью речи, но и способностью выражать эмоции и адаптировать свои ответы к нюансам речи собеседника. Многие участники описали его как «дружелюбный» и «искренний».

Примечательно, что когда пользователи выглядели растерянными или напряженными, GPT-4.5 мог предлагать юмористические или утешительные ответы, заставляя многих верить, что они общаются с реальным человеком.

Разговор между двумя испытуемыми (ИИ и человек) во время теста. Фото: Калифорнийский университет в Сан-Диего .

Между тем, LLaMa-3.1-405B, несмотря на впечатляющие технические характеристики, менее выразителен и менее адаптивен к контексту, чем GPT-4.5. GPT-4o, несмотря на свою мощь, уступает ему в плане персонализации и адаптации к ситуации.

Прорыв GPT-4.5 может открыть целый ряд практических применений: от виртуальных репетиторов до психологической поддержки и обслуживания клиентов. Однако по мере того, как ИИ становится всё более похожим на человека, различение реальности и виртуальности, а также регулирование использования этой технологии станут ключевой общественной задачей.

Исследование проводится на фоне стремительного развития искусственного интеллекта. Успех GPT-4.5 — это не только технический триумф OpenAI, но и серьёзные вопросы об отношениях между людьми и машинами. Один из тестировщиков заметил, что ему казалось, будто он разговаривает с другом, — пока он не осознал, что это всего лишь строки кода. Диалог между людьми и искусственным интеллектом, возможно, только начинается.

Источник: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html