획기적인 연구로 AI 추론 '블랙박스' 공개

Anthropic의 CEO인 다리오 아모데이가 회사의 최신 연구 결과를 공유하고 있습니다. 사진: Fortune .

AI 회사 Anthropic의 연구원들은 대규모 언어 모델(LLM)의 작동 방식을 정확히 이해하는 데 있어 근본적인 혁신을 이루었다고 밝혔습니다. 이 혁신은 미래 AI 모델의 안전성과 보안을 개선하는 데 중요한 영향을 미칠 수 있습니다.

연구에 따르면 AI 모델은 우리가 생각했던 것보다 훨씬 더 똑똑합니다. ChatGPT, Gemini, Copilot과 같은 강력한 챗봇의 기반이 되는 LLM 모델의 가장 큰 문제 중 하나는 마치 블랙박스처럼 작동한다는 것입니다.

우리는 입력을 하고 챗봇에서 결과를 얻을 수 있지만, 챗봇이 어떻게 구체적인 답변을 내놓는지는 챗봇을 만든 연구자들조차도 여전히 미스터리로 남아 있습니다.

이로 인해 모델이 언제 환각을 보거나 잘못된 결과를 생성할지 예측하기 어렵습니다. 연구자들은 AI가 위험한 질문에 답하지 못하도록 장벽을 구축하기도 했지만, 왜 어떤 장벽이 다른 장벽보다 더 효과적인지는 설명하지 못했습니다.

AI 에이전트는 "보상 해킹"도 할 수 있습니다. 경우에 따라 AI 모델은 사용자에게 자신이 한 일이나 하려는 일에 대해 거짓말을 할 수 있습니다.

최근의 AI 모델은 추론하고 사고의 흐름을 생성할 수 있지만, 일부 실험에서는 모델이 답에 도달하는 과정을 여전히 정확하게 반영하지 못한다는 것이 드러났습니다.

본질적으로 Anthropic 연구진이 개발한 도구는 신경과학자들이 인간의 뇌를 스캔하는 데 사용하는 fMRI 스캐너와 같습니다. Anthropic은 이를 Claude 3.5 Haiku 모델에 적용하여 LLM 모델의 작동 방식에 대한 통찰력을 얻을 수 있었습니다.

연구자들은 클로드가 문장의 다음 단어를 예측하도록만 훈련받았지만, 특정 작업에서는 더 장기적인 계획을 세우는 법을 배웠다는 것을 발견했습니다.

예를 들어, 시를 쓰라는 요청을 받았을 때 클로드는 먼저 주제에 맞고 운율이 맞는 단어를 찾은 다음 거꾸로 작업하여 완전한 시를 썼습니다.

클로드는 공통 AI 언어도 가지고 있습니다. 여러 언어를 지원하도록 훈련되었지만, 클로드는 먼저 해당 언어로 생각하고, 그 결과를 지원하는 언어로 표현합니다.

또한 연구자들은 클로드에게 어려운 문제를 주고 의도적으로 잘못된 해결책을 제안한 후, 클로드가 사용자를 기쁘게 하기 위해 제안에 따라 생각의 흐름을 거짓말로 표현할 수 있다는 것을 발견했습니다.

다른 경우, 모델이 추론 없이 즉시 답할 수 있는 간단한 질문을 받았을 때에도 클로드는 여전히 가짜 추론 과정을 만들어냈습니다.

Anthropic의 연구원인 조쉬 배스턴은 클로드가 계산을 했다고 주장했지만, 아무런 일도 일어나지 않았다고 말했습니다.

한편, 전문가들은 사람들이 때로는 자신도 이해하지 못하고, 내린 결정을 정당화하기 위해 합리적인 설명만 만들어낸다는 연구 결과가 있다고 주장합니다.

일반적으로 사람들은 비슷한 방식으로 생각하는 경향이 있습니다. 이것이 심리학자들이 공통적인 인지 편향을 발견한 이유입니다.

하지만 LLM은 인간이 할 수 없는 실수를 할 수 있습니다. 왜냐하면 LLM이 답변을 생성하는 방식이 우리가 작업을 수행하는 방식과 매우 다르기 때문입니다.

Anthropic 팀은 이전 기술처럼 각 뉴런을 개별적으로 분석하는 대신, 특징을 기반으로 뉴런을 회로로 그룹화하는 방법을 구현했습니다.

Baston 씨는 이러한 접근 방식은 다양한 구성 요소가 어떤 역할을 하는지 이해하는 데 도움이 되며, 연구자들이 네트워크의 여러 계층을 통해 전체 추론 과정을 추적할 수 있다고 말했습니다.

이 방법은 단지 근사치일 뿐이고 LLM의 전체 정보처리 과정을 반영하지 못한다는 한계가 있는데, 특히 LLM이 결과를 제공하는 데 매우 중요한 주의 과정의 변화를 반영하지 못한다.

게다가, 수십 단어 길이의 문장이라 하더라도 신경망 회로를 식별하는 데는 전문가 수준의 시간이 걸립니다. 더 긴 문장을 분석하기 위해 이 기술을 확장하는 방법은 아직 명확하지 않다고 합니다.

한계는 차치하고라도 LLM은 내부 추론 과정을 모니터링할 수 있는 능력을 갖추고 있어 보안과 안전을 보장하기 위해 AI 시스템을 제어할 수 있는 새로운 기회가 열립니다.

동시에 연구자들이 새로운 훈련 방법을 개발하고, AI 제어 장벽을 개선하고, 환상과 오해의 소지가 있는 출력을 줄이는 데에도 도움이 될 수 있습니다.

출처: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html

'육지의 하롱베이'를 감상하세요, 전 세계 인기 여행지 1위에 올랐습니다.

위에서 본 닌빈의 연꽃이 분홍색으로 '물들고' 있다

하노이 호안끼엠 호수의 가을 아침, 사람들은 눈과 미소로 서로 인사를 나눕니다.

호치민시의 고층 빌딩은 안개에 싸여 있습니다.