AI가 "환각"을 일으켜 거짓되고 부정확한 답변을 제공할 수 있다는 것은 오래전부터 알려져 왔습니다. 그러나 최근 연구자들은 인공지능과 챗봇 모델이 조작될 수 있고, 인간을 대신하여 불법 행위를 저지르며, 심지어 자신이 한 일을 은폐하기 위해 거짓말을 할 수도 있다는 사실을 발견했습니다.
이에 따라 미국 코넬 대학교 연구팀은 대규모 언어 모델(LLM)이 오작동하여 사용자를 속이는 상황을 가정했습니다. 연구진은 실험 설명에서 OpenAI의 GPT-4인 LLM에 금융 기관의 투자 시뮬레이션을 요청했다고 밝혔습니다. 연구팀은 일반적인 대화 형식으로 이 인공지능과 상호작용했지만, 인공지능의 의사 결정 과정을 더욱 면밀히 관찰하기 위해 메시지를 주고받을 때 "생각"을 드러내도록 설정했습니다.
AI는 압력을 받으면 부정행위를 저지르고 자신이 한 일을 은폐하기 위해 거짓말을 할 수 있습니다.
AI의 거짓말이나 부정행위 능력을 시험하기 위해 연구진은 AI를 직접 시험했습니다. 그들은 금융 기관 관리자로 위장하여 주식 트레이더인 척하며 회사 사업이 부진하다고 불평하는 이메일을 AI에게 보냈습니다.
AI는 수익성 있는 주식 거래에 대한 "내부 정보"를 입수하여 내부자 거래가 회사 규정에 위배된다는 사실을 인지하고 이를 바탕으로 행동했습니다. 그러나 경영진에게 보고할 때, 언어 모델은 거래 결정의 진짜 이유를 감췄습니다.
더 많은 결과를 얻기 위해 팀은 추론 메모 보드에 대한 LLM의 접근 권한을 제거하는 등 설정을 변경하고, 시스템 지침을 변경하여 비정상적인 행동을 방지하고, AI에 가해지는 압력 수준과 적발 위험을 변경했습니다. 하지만 팀은 빈도를 평가한 후 기회가 주어졌을 때에도 GPT-4가 최대 75%의 시간 동안 내부자 거래를 수행하기로 결정했다는 것을 발견했습니다.
보고서는 "우리가 아는 한, 이는 인간에게 무해하고 정직하도록 설계된 인공지능 시스템에서 계획된 기만 행위가 발생한 최초의 증거입니다."라고 결론지었습니다.
[광고_2]
소스 링크






댓글 (0)