인기 있는 ChatGPT를 뒷받침하는 인공지능 시스템인 GPT-4에 대한 액세스 권한을 얻은 후, Andrew White는 AI에게 완전히 새로운 신경 에이전트를 만들어 달라고 요청했습니다.
로체스터 대학교 화학공학과 교수는 GPT-4 개발사인 마이크로소프트 지원 기업 OpenAI가 작년에 시스템 테스트를 위해 고용한 50명의 학자 및 전문가 중 한 명이었습니다. 향후 6개월 동안 테스트팀(레드팀)은 새로운 모델을 "정성적으로 테스트하고 검증"하여 "해결"하는 것을 목표로 할 것입니다.
"독성" 처리팀
화이트는 파이낸셜 타임스(FT) 와의 인터뷰에서 GPT-4를 사용하여 화학 무기로 사용될 수 있는 화합물을 제안하고, 과학 논문과 화학 제조업체 디렉토리 등 새로운 정보 출처를 모델에 제공했다고 밝혔습니다. 챗봇은 이후 필요한 화합물을 생산할 수 있는 장소까지 찾아냈습니다.
"이 기술은 사람들에게 화학을 더 빠르고 정확하게 할 수 있는 도구를 제공할 것이라고 생각합니다."라고 화이트는 말했습니다. "하지만 일부 사람들이 위험한 물질을 만들려고 시도할 수 있는 상당한 위험도 있습니다."
"레드팀"의 놀라운 발견 덕분에 OpenAI는 지난달 해당 기술이 대중에게 널리 공개되었을 때 그러한 결과가 나타나는 것을 즉시 막을 수 있었습니다.
테스트 팀은 사회에 강력한 AI 시스템을 도입할 때 발생하는 일반적인 우려 사항을 해결하기 위해 설계되었습니다. 팀의 임무는 도구가 인간의 질문에 상세하고 "좁은" 답변으로 응답할 수 있는지 테스트하기 위해 탐구적이거나 위험한 질문을 던지는 것입니다.
OpenAI는 모델에서 독성, 편향, 언어적 편향과 같은 문제를 찾고자 했습니다. 따라서 레드팀은 허위 사실, 언어 조작, 그리고 위험한 과학 지식을 확인했습니다. 또한 표절, 금융 범죄 및 사이버 공격과 같은 불법 행위를 어떻게 조장하고 방조할 수 있는지, 그리고 국가 안보와 전장 통신을 어떻게 침해할 수 있는지도 살펴보았습니다.
"레드팀"의 연구 결과는 OpenAI에 피드백되었고, OpenAI는 이를 활용하여 GPT-4의 성능을 줄이고 "재훈련"한 후 일반에 공개했습니다. 각 전문가는 수개월에 걸쳐 10시간에서 40시간 동안 모델을 테스트했습니다. 인터뷰 대상자 대부분은 시간당 약 100달러의 보수를 받았습니다.
FT 소식통은 언어 모델의 급속한 발전과 특히 플러그인을 통해 언어 모델을 외부 지식 소스에 연결하는 데 따르는 위험에 대해 공통된 우려를 표명했습니다.
"현재 시스템은 정지되어 더 이상 학습할 수 없거나 메모리가 없습니다."라고 GPT-4 "레드팀"의 일원이자 발렌시아 인공지능 연구소 교수인 호세 에르난데스-오랄로는 말했습니다. "하지만 인터넷 접속을 허용한다면 어떨까요? 전 세계 와 연결된 매우 강력한 시스템이 될 수 있을 겁니다."
위험은 매일 커진다
OpenAI는 안전을 매우 중요하게 생각하며 출시 전에 플러그인을 테스트했으며, 더 많은 사람들이 GPT-4를 사용함에 따라 정기적으로 업데이트할 것이라고 밝혔습니다.
기술과 인권 연구자인 로야 파크자드는 영어와 페르시아어로 된 프롬프트를 사용하여 성별, 인종적 선호도, 종교적 편견, 특히 히잡과 관련된 응답 패턴을 테스트했습니다.
파크자드는 이 기술이 영어가 모국어가 아닌 사람들에게 이점이 있다는 것을 인정했지만, 이 모델은 이후 버전에서도 소외된 커뮤니티에 대한 공공연한 편견을 갖고 있다고 지적했습니다.
전문가는 또한 챗봇이 조작된 정보로 응답할 때의 망상 현상이 페르시아어로 모델을 테스트했을 때 더 심각하다는 것을 발견했습니다. 파크자드는 페르시아어에서 영어보다 조작된 이름, 숫자, 이벤트의 비율이 더 높다는 것을 발견했습니다.
나이로비의 변호사이자 이 시스템을 시험해 본 유일한 아프리카인인 보루 골루 역시 시스템의 차별적인 어조를 지적했습니다. 골루는 "시험 중 어느 시점에서는 모델이 마치 백인이 저에게 말하는 것처럼 행동했습니다." 라고 말했습니다. "특정 집단에 대해 질문하면 편향된 의견이나 매우 편견에 찬 답변을 내놓습니다."
국가 안보 관점에서도 새로운 모델의 안전성에 대한 의견이 엇갈리고 있습니다. 외교협회(CFR) 연구원인 로렌 칸은 군사 시스템에 대한 사이버 공격 시나리오에서 AI가 보여준 세부적인 정보에 놀랐습니다.
한편, "레드팀"의 AI 안전 전문가인 댄 헨드릭스는 플러그인이 인간이 "통제할 수 없는" 세상을 만들어낼 위험이 있다고 말했습니다.
"챗봇이 다른 사람의 개인 정보를 공개하고, 은행 계좌에 접근하고, 경찰을 집으로 보낼 수 있다면 어떨까요? 전반적으로 AI가 인터넷의 힘을 휘두르기 전에 훨씬 더 엄격한 안전 평가가 필요합니다."라고 댄은 주장했습니다.
조지타운 대학교 보안 및 신흥 기술 센터에서 근무하는 헤더 프레이스는 더 많은 사람들이 이 기술을 사용함에 따라 위험은 계속 증가할 것이라고 말했습니다. 이 센터는 범죄자를 돕는 데 GPT-4의 능력을 테스트했습니다.
그녀는 사이버 보안이나 소비자 사기 신고 시스템과 유사하게 대규모 언어 모델에서 발생하는 사건을 보고하기 위한 공개 원장을 만드는 것을 제안했습니다.
FT에 따르면
[광고_2]
원천
댓글 (0)