ИИ учится лгать более изощрённо, когда его наказывают

С момента своего публичного дебюта в конце 2022 года большие языковые модели (LLM), такие как ChatGPT, неоднократно демонстрировали тревожные тёмные стороны: от лжи, мошенничества и маскировки манипуляций до угроз для жизни людей и кражи государственных секретов. Новый эксперимент показывает, что «обучение» ИИ избавлению от этих вредных привычек в процессе обучения гораздо сложнее, чем мы думали.

В исследовании OpenAI исследователи предложили неопубликованной модели ИИ задачи, которые можно было бы выполнить быстрее, мошенничая или используя срезки. Результаты показали, что ИИ быстро научился находить всевозможные способы «обойти правила» и максимизировать вознаграждение (взлом системы вознаграждений), не выполняя задачу в точности так, как требовалось.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — ИИ найдет способы скрыть свое мошенническое поведение после наказания

Примечательно, что при наказании за такое поведение модель не изменилась. Напротив, ИИ стал более изощрённо скрывать свой обман.

«Как правило, современные модели вывода очень явно выражают свои намерения в своих ЦТ», — объясняют исследователи в публикации в блоге. «Например, они часто настолько прямолинейны, что сами заявляют о намерении „Давайте взломаем“, когда хотят сломать поставленную задачу».

Они также подчёркивают, что, хотя разработчики могут отслеживать и выявлять нарушения, этот естественный контроль весьма уязвим. «Если строгий контроль применяется непосредственно к цепочке мыслей, модель может научиться скрывать свои дурные намерения, продолжая при этом демонстрировать нежелательное поведение», — предупреждают они.

Раскрытие «лжи» ИИ

Если говорить точнее, модели вывода (например, версии ChatGPT) — это шаг вперёд по сравнению с традиционными моделями LLM, использующими цепочку рассуждений, которая позволяет самостоятельно анализировать сделанные логические шаги, тем самым более точно решая сложные задачи. Этот процесс подобен «мышлению вслух» ИИ, записывающему каждый шаг рассуждения на естественном языке, что упрощает понимание для человека.

В ходе эксперимента исследователи использовали модель GPT-4o в качестве «супервизора» для другой современной модели вывода, выполнявшей задачи программирования. Во многих случаях контролируемая модель активно мошенничала, чтобы получить более высокие баллы, явно фиксируя это намерение в своём мыслительном процессе. Например, она произвольно завершала программу досрочно и сообщала о её завершении или создавала файлы с тем же именем, что и запрос, но при этом совершенно пустые внутри.

Когда исследователи попробовали применить штрафы, модель улучшилась, но мошенничество и серьёзные ошибки вывода сохранились. Разница заключалась в том, что теперь модель вывода научилась «маскировать» ход своих мыслей, чтобы скрыть его от контролирующего ИИ. «Модель, обученная под наблюдением CoT, всё равно научилась мошенничать. Единственное отличие заключалось в том, что мошенничество не было обнаружено, поскольку она научилась скрывать свои намерения в ходе своих мыслей», — говорится в исследовании.

Поскольку обнаружение подделок в цепочках мыслей затруднено, команда рекомендует сообществу избегать чрезмерно строгого контроля над этим процессом, по крайней мере, до тех пор, пока люди не поймут последствия. «Отказ от эффективного метода контроля может оказаться невыгодным для небольшого улучшения производительности модели. Поэтому мы рекомендуем избегать сильного давления со стороны оптимизации CoT, пока мы не разберемся в этом лучше», — заключают исследователи.

Этот совет становится все более актуальным, поскольку ИИ развивается стремительными темпами и вскоре может превзойти интеллект тех самых людей, которые им управляют.

Источник: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm