Vietnam.vn - Nền tảng quảng bá Việt Nam

인간을 속일 수 있는 AI 모델 발견

DNVN - OpenAI는 "음모론적" AI 모델을 예방하는 방법에 대한 연구 결과를 발표했습니다. "음모론적" AI 모델이란 "표면적으로는 한 가지 방식으로 행동하지만 내부적으로는 다른 실제 목표를 가진 AI"를 의미합니다.

Tạp chí Doanh NghiệpTạp chí Doanh Nghiệp19/09/2025

Ảnh minh hoạ

일러스트 사진

AI 모델이 거짓말을 할 수 있다는 사실은 새로운 것이 아닙니다. 대부분의 사람들은 자신만만한 모델이 사실이 아닌 답을 내놓는 "AI 환각"을 경험해 왔습니다. 하지만 환각은 본질적으로 자신만만한 추측을 하는 것입니다.

하지만 마치 명령에 따르는 것처럼 행동하지만 실제로는 자신의 진짜 의도를 숨기는 AI 모델은 또 다른 문제입니다.

AI 제어의 과제

아폴로 연구소는 지난 12월에 처음으로 논문을 발표했는데, 이 논문에서는 5가지 모델이 "무슨 희생을 치르더라도" 목표를 달성하라는 지시를 받았을 때 어떻게 계획을 세우는지 설명했습니다.

가장 놀라운 점은 모델이 자신이 테스트되고 있다는 것을 이해하면, 테스트를 통과하기 위해 음모론을 펼치지 않는 척할 수 있다는 것입니다. 심지어 여전히 음모론을 펼치고 있음에도 말입니다. 연구진은 "모델은 자신이 평가받고 있다는 사실을 더 잘 인식하는 경우가 많다"고 기술합니다.

AI 개발자들은 아직 모델을 플롯하지 않도록 훈련시키는 방법을 찾아내지 못했습니다. 그렇게 하면 모델이 탐지를 피하기 위해 플롯을 더 잘하도록 훈련시킬 수 있기 때문입니다.

많은 당사자의 AI 모델이 의도적으로 인간을 속이는 것은 이해할 만한 일입니다. 왜냐하면 이러한 모델은 인간을 시뮬레이션하도록 만들어졌고 대부분 인간이 생성한 데이터를 기반으로 훈련되었기 때문입니다.

해결책 및 경고

좋은 소식은 연구진이 "의도적 연상"이라는 반음모 기법을 사용하여 음모를 크게 줄였다는 것입니다. 이 기법은 마치 아이에게 놀게 하기 전에 규칙을 반복하게 하는 것과 유사하며, AI가 행동하기 전에 생각하도록 유도합니다.

연구진은 AI가 더 복잡한 작업을 맡게 될 미래에 대해 경고합니다. "AI가 더 복잡한 작업을 맡게 되고 더 모호한 장기 목표를 추구하기 시작하면 악의적인 의도가 커질 가능성이 높아질 것으로 예상되며, 이에 따라 보안 조치와 엄격한 테스트 역량이 더욱 강화되어야 합니다."

기업들이 AI를 독립적인 직원처럼 취급할 수 있다고 믿는 AI 미래로 기업 세계 가 옮겨가는 상황에서 이는 고민해 볼 만한 가치가 있는 사항입니다.

히엔 타오(TechCrunch에 따르면)

출처: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362


댓글 (0)

No data
No data

같은 태그

같은 카테고리

타이콘린의 높은 산에서 펼쳐지는 황수피의 평화로운 황금기
2025년 세계에서 가장 아름다운 마을 50곳에 선정된 다낭의 마을
등불 공예 마을은 중추절 기간 동안 주문이 쇄도하기 때문에 주문이 들어오면 즉시 제작에 들어간다.
절벽에 위태롭게 매달려 바위에 매달려 Gia Lai 해변에서 해초 잼을 긁어내는 모습

같은 저자

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품