전적으로 AI로만 구성된 회사가 성공할 수 있을까? 사진: 비즈니스 인사이더 . |
최근 실험에서 카네기 멜론 대학의 연구자들은 직원 정책과 내부 웹사이트를 갖춘 TheAgentCompany라는 소프트웨어 회사를 시뮬레이션했습니다. 모든 인력은 AI 에이전트, 즉 스스로 추론하고 계획을 세워 작업을 수행하도록 설계된 인공 지능입니다.
"작업자"를 구동하는 인공지능 소프트웨어는 Google, OpenAI, Anthropic, Meta에서 출시되었습니다. 이러한 AI는 재무 분석가, 소프트웨어 엔지니어부터 프로젝트 관리자까지 다양한 역할을 수행합니다. 그들은 인사부부터 실제 엔지니어링까지 시뮬레이션된 부서에서 동료로서 함께 일합니다.
이 실험에서는 AI 모델이 소프트웨어 회사의 실제 직원의 일상 업무를 시뮬레이션하는 작업을 처리해야 했습니다. 연구팀은 AI가 실제 환경에서 얼마나 우수한 성능을 보일 수 있는지, 그리고 인간을 대체할 만큼 충분한 역량을 갖추고 있는지를 정확하게 평가하고자 했습니다.
처리해야 할 업무로는 파일 폴더 탐색, 새로운 사무실을 "가상으로" 둘러보기, 수집된 피드백을 바탕으로 소프트웨어 엔지니어의 성과 평가서 작성 등이 있습니다.
한 작업에서 AI는 커피숍 체인의 데이터베이스를 분석하기 위해 여러 디렉토리에 접근해야 했습니다. 또 다른 직무에서는 36세 엔지니어에 대한 피드백을 수집하고 성과 평가를 작성해 달라는 요청을 받았습니다.
그러나 Business Insiders 에 따르면 결과는 참담했습니다. 가장 좋은 성과를 보인 모델인 Anthropic의 Claude 3.5 Sonnet은 할당된 작업의 24%만 완료했습니다. 연구팀은 이처럼 낮은 수준의 성능을 달성하는 데도 엄청난 비용이 든다고 지적했습니다. 평균적으로 클로드는 각 작업을 완료하는 데 약 30걸음을 걷고, 비용은 6달러가 넘습니다.
2위는 Google의 Gemini 2.0 Flash입니다. 평균적인 도구는 작업을 완료하는 데 40단계를 거치지만 성공률은 11.4%에 불과합니다. 마지막으로 Amazon의 Nova Pro v1이 1.7%의 작업을 완료했으며, 평균 단계 수가 20개에 가깝습니다.
연구자들에 따르면, 이러한 결과의 이유는 AI 에이전트가 여전히 공통적인 배경 지식이 부족하고 사회적 기술이 약하기 때문이라고 합니다. 게다가 탐색 기능과 인터넷 접근성도 매우 형편없습니다.
챗봇은 또한 자기기만에 어려움을 겪습니다. 자기기만은 자동적으로 더 쉬운 길을 선택하지만, 궁극적으로는 작업 실패로 이어집니다. 예를 들어, AI 에이전트가 업무를 수행하는 동안 회사 채팅방에서 질문할 적절한 사람을 찾지 못하는 경우가 있습니다. 그래서 그들은 지름길을 생각해냈습니다. 찾고 있는 사람의 이름을 사용해서 다른 사물의 이름을 짓는 것이죠.
AI 연구자인 스티븐 캐스퍼는 사람들이 AI 에이전트의 능력을 과대평가하고 있다고 말합니다. 엔비디아의 CEO인 젠슨 황과 오픈AI의 CEO인 샘 알트만은 모두 올해 AI가 노동 시장에 진입하여 회사의 일부를 대체할 것이라고 말했습니다.
그러나 다른 많은 연구에서는 그 반대의 결과가 나왔습니다. 하버드 경영대학원은 AI가 큰 변화가 일어나는 환경에는 잘 적응하지 못한다고 지적했습니다. 랭체인 의 보고서는 또한 그들이 도구를 사용하고 지침을 따르는 데 어려움을 겪는다는 사실을 발견했습니다.
AI 에이전트는 일부 작은 작업을 잘 수행할 수 있어야 합니다. 하지만 위 연구 결과에 따르면, 소프트웨어 개발과 같이 인간이 수행하기 어려운 작업에서는 인공지능이 더 높은 성공률을 보이는 것으로 나타났습니다.
카네기 멜론 대학의 실험 결과에 따르면, AI는 아직 중요한 업무에서 인간을 대체하지 못한 것으로 나타났습니다. 반면, 인간은 AI를 활용해 일상 업무를 최적화할 수 있습니다.
출처: https://znews.vn/cong-ty-co-toan-bo-nhan-vien-la-ai-post1549608.html
댓글 (0)