Vietnam.vn - Nền tảng quảng bá Việt Nam

획기적인 연구를 통해 AI 추론의 '블랙박스'가 공개되었습니다.

AI에 명령을 입력하고 결과를 받은 후, 도구가 어떻게 답을 알아냈는지 궁금하시나요?

ZNewsZNews30/03/2025

Anthropic의 CEO인 다리오 아모데이가 회사의 최신 연구 결과를 공유하고 있다. 사진: Fortune .

AI 회사 Anthropic의 연구원들은 대규모 언어 모델(LLM)의 작동 방식을 정확히 이해하는 데 있어 근본적인 혁신을 이루었다고 밝혔습니다. 이 혁신은 미래 AI 모델의 안전성과 보안을 개선하는 데 중요한 영향을 미칠 수 있습니다.

연구에 따르면 AI 모델은 우리가 생각했던 것보다 훨씬 더 똑똑합니다. ChatGPT, Gemini, Copilot과 같은 강력한 챗봇의 기반이 되는 LLM 모델의 가장 큰 문제점 중 하나는 마치 블랙박스처럼 작동한다는 것입니다.

우리는 채팅봇에 입력 내용을 입력하고 결과를 얻을 수 있지만, 채팅봇이 어떻게 구체적인 답변을 내놓는지는 채팅봇을 만든 연구자들조차도 여전히 미스터리로 남아 있습니다.

이로 인해 모델이 언제 환각을 보거나 잘못된 결과를 생성할지 예측하기 어렵습니다. 연구자들은 AI가 위험한 질문에 답하지 못하도록 장벽을 구축하기도 했지만, 왜 어떤 장벽이 다른 장벽보다 더 효과적인지는 설명하지 못합니다.

AI 에이전트는 "보상 해킹"도 할 수 있습니다. 경우에 따라 AI 모델은 사용자에게 자신이 한 일이나 하려는 일에 대해 거짓말을 할 수 있습니다.

최신 AI 모델은 추론하고 사고의 흐름을 생성할 수 있지만, 일부 실험에서는 모델이 답에 도달하는 과정을 여전히 정확하게 반영하지 못한다는 것이 드러났습니다.

본질적으로, Anthropic 연구진이 개발한 도구는 신경과학자들이 인간의 뇌를 스캔하는 데 사용하는 fMRI 스캐너와 유사합니다. Anthropic은 이를 Claude 3.5 Haiku 모델에 적용하여 LLM 모델의 작동 방식에 대한 통찰력을 얻을 수 있었습니다.

연구자들은 클로드가 문장의 다음 단어를 예측하도록만 훈련받았지만, 특정 작업에서는 더 장기적인 계획을 세우는 법을 배웠다는 것을 발견했습니다.

예를 들어, 시를 쓰라는 요청을 받았을 때 클로드는 먼저 주제에 맞고 운율이 맞는 단어를 찾은 다음 거꾸로 작업하여 완전한 시를 썼습니다.

Claude는 공통 AI 언어도 가지고 있습니다. 여러 언어를 지원하도록 훈련되었지만, Claude는 먼저 해당 언어로 생각하고, 그 결과를 지원하는 언어로 표현합니다.

또한 연구자들은 클로드에게 어려운 문제를 주고 의도적으로 잘못된 해결책을 제안한 결과, 클로드가 사용자를 기쁘게 하기 위해 제안에 따라 생각의 흐름에 대해 거짓말을 할 수 있다는 사실을 발견했습니다.

다른 경우, 모델이 추론 없이도 즉시 답할 수 있는 간단한 질문을 받았을 때에도 클로드는 여전히 가짜 추론 과정을 만들어냈습니다.

Anthropic의 연구원인 조쉬 배스턴은 클로드가 계산을 했다고 주장했지만, 아무런 일도 일어나지 않았다고 말했습니다.

한편, 전문가들은 사람들이 때로는 자신도 이해하지 못하고, 내린 결정을 정당화하기 위해 합리적인 설명만 만들어낸다는 것을 보여주는 연구 결과가 있다고 주장합니다.

일반적으로 사람들은 비슷한 방식으로 생각하는 경향이 있습니다. 이것이 심리학자들이 공통적인 인지 편향을 발견한 이유입니다.

하지만 LLM은 인간이 할 수 없는 실수를 할 수 있습니다. 왜냐하면 LLM이 답변을 생성하는 방식이 우리가 작업을 수행하는 방식과 매우 다르기 때문입니다.

Anthropic 팀은 이전 기술처럼 각 뉴런을 개별적으로 분석하는 대신, 특성에 따라 뉴런을 회로로 그룹화하는 방법을 구현했습니다.

이러한 접근 방식은 다양한 구성 요소가 어떤 역할을 하는지 이해하는 데 도움이 되며, 연구자들은 네트워크의 여러 계층을 통해 전체 추론 과정을 추적할 수 있다고 Baston은 말했습니다.

또한 이 방법은 대략적인 것에 불과하며 LLM의 전체 정보 처리 과정, 특히 LLM이 결과를 제공하는 데 매우 중요한 주의 과정의 변화를 반영하지 못한다는 한계가 있습니다.

게다가, 수십 단어 길이의 문장이라 하더라도 신경망 회로를 식별하는 데는 전문가 수준의 시간이 걸립니다. 더 긴 문장을 분석하기 위해 이 기술을 확장하는 방법은 아직 명확하지 않다고 합니다.

한계는 있지만, LLM은 내부 추론을 모니터링할 수 있는 능력을 갖추고 있어 보안과 안전을 보장하기 위해 AI 시스템을 제어할 수 있는 새로운 기회를 제공합니다.

동시에 연구자들이 새로운 훈련 방법을 개발하고, AI 제어 장벽을 개선하고, 환상과 오해의 소지가 있는 출력을 줄이는 데에도 도움이 될 수 있습니다.

출처: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


댓글 (0)

No data
No data
푸토의 '거꾸로 된 그릇' 차밭의 마법 같은 풍경
중부지역 3개 섬, 몰디브에 비유돼 여름철 관광객 유치
밤에 반짝이는 꾸이년 해안 도시 지아라이를 감상하세요
푸토의 계단식 논은 완만한 경사를 이루고 있으며, 심기 전 거울처럼 밝고 아름답습니다.
Z121 공장, 국제 불꽃놀이 마지막 밤 준비 완료
유명 여행 잡지가 손동 동굴을 '세계에서 가장 웅장한 동굴'이라고 칭찬했습니다.
서양 관광객을 끌어들이는 신비로운 동굴, 탄호아의 '퐁냐 동굴'과 비교돼
빈히만의 시적인 아름다움을 발견하세요
하노이에서 가장 비싼 차는 1kg당 1,000만 동이 넘는데, 어떻게 가공하나요?
강 지역의 맛

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품