최근 중국의 AI 에이전트 마누스(Manus)가 세계 기술계에 큰 반향을 일으켰습니다. 개발자에 따르면, 이 도구는 사용자가 간단한 지시만 내리면 후보자 프로필 검색, 여행 일정 계획, 주식 분석 등 복잡한 작업을 수행할 수 있습니다.

Manus가 AI Agent를 출시하기 전, 미국의 AI 대기업 OpenAI는 미국 내 ChatGPT Pro 사용자들에게 Operator를 선보였습니다. OpenAI에 따르면, 이 AI 에이전트는 브라우저에서 콘서트 티켓 예매나 온라인 주문과 같은 간단한 작업을 대신 수행할 수 있습니다.

Operator는 대규모 멀티모달 언어 모델인 GPT-4o를 기반으로 구축된 Computer-Using Agent(CUA)라는 새로운 모델을 기반으로 합니다. OpenAI 연구원 야시 쿠마르는 이 모델이 아직 초기 단계이며 여전히 부족한 점이 있다고 인정합니다.

다른 AI 에이전트와 마찬가지로, 오퍼레이터는 컴퓨터 화면의 스크린샷을 찍고 픽셀을 스캔하여 어떤 동작을 취해야 할지 결정합니다. 이를 구현한 모델인 CUA는 버튼, 메뉴, 텍스트 대화 상자와 같은 인간에게 익숙한 그래픽 인터페이스와 상호 작용하도록 훈련되었습니다.

또 다른 OpenAI 과학자 인 레이이치로 나카노에 따르면, 기존 모델은 전문 API(애플리케이션 프로그래밍 인터페이스)를 통해 소프트웨어를 사용하는데, 이로 인해 많은 제약이 따른다고 합니다.

CUA는 또한 작업을 더 작은 단계로 나누어 한 번에 하나씩 완료하려고 시도하며, 문제가 발생하면 처음으로 돌아갑니다. 현재 Operator는 자체 브라우저에서만 일부 작업을 수행할 수 있습니다.

OpenAI는 개발자가 CUA를 기반으로 자신만의 애플리케이션을 작성할 수 있는 API(애플리케이션 프로그래밍 인터페이스)를 통해 향후 CUA의 기능을 확장할 계획입니다.

OpenAI는 또한 Red Team을 사용하여 사용자가 AI 에이전트에게 허용할 수 없는 작업(생물 무기 생산 등)을 요청하면 어떤 일이 발생하는지 확인하여 CUA의 안전성을 테스트했습니다.

뉴욕 타임즈의 기자 케빈 루즈는 오퍼레이터에게 여러 가지 일을 부탁했습니다. 아마존을 통해 아이스크림을 주문하고, 새로운 도메인 이름을 구매하고 재구성하고, 2월 14일에 레스토랑을 예약하고, 이발소를 예약하는 일 등이 그 중 하나였습니다.

이 글의 작성자는 AI 에이전트가 대부분의 작업을 스스로 수행했지만, 가끔은 실패한 시도 후에 AI 에이전트를 "구출"해야 했다고 언급했습니다.

Roose는 Operator가 일반적인 ChatGPT와 비슷하다고 설명했습니다. 다만 작업이 주어지면 AI 에이전트가 작은 브라우저 창을 열고 주소창에 Amazon.com을 입력한 다음 클릭하여 작업을 시작한다는 점이 다릅니다.

이 과정에서 배달 시간과 같은 주인의 의도를 명확히 하기 위해 몇 가지 질문을 합니다. 올바른 선택을 했는지 확인한 후 최종 확인을 보내고, 품목을 카트에 넣고 주문을 진행합니다.

여기서 가장 중요한 점은 이 기능이 백그라운드에서 작동하기 때문에 사용자가 이를 모니터링할 필요가 없다는 것입니다.

하지만 해당 운영자는 Reddit, YouTube 등 일부 웹사이트에서 차단되거나 CAPTCHA 테스트에 실패하는 등 다른 임무에도 실패했습니다.

현재 AI 에이전트에 대한 "표준" 정의는 없지만 벤처 캐피털 회사 Glasswing의 창립자이자 매니저인 루디나 세세리에 따르면 AI 에이전트는 운영 환경을 이해하고 추론하고 결정을 내리고 목표를 달성하기 위해 자동으로 행동하도록 설계된 지능형 소프트웨어 시스템입니다.

AI Agent는 자연어 처리, 머신 러닝, 컴퓨터 비전 등 다양한 AI/ML 기술을 사용하여 이를 수행합니다.

Box의 설립자이자 CEO인 에런 레비는 시간이 지남에 따라 AI가 더욱 발전함에 따라 AI 에이전트가 인간을 대신하여 더 많은 일을 할 수 있게 될 것이라고 지적합니다.

Microsoft의 AI at Work 마케팅 이사인 재러드 스파타로는 AI 에이전트를 "AI 중심 세상의 새로운 애플리케이션"으로 보고 있습니다. AI 에이전트는 직장에서 각 개인의 "가장 큰 어려움"을 해결하는 새로운 기능을 추가하여 실질적인 비즈니스 성과를 창출합니다.

AI 에이전트는 인간을 도울 뿐만 아니라 인간과 함께 또는 인간을 대신하여 작업함으로써 생성 AI의 힘을 더욱 강화합니다. IBM에 따르면, AI 에이전트는 자신이 받은 정보에 따라 행동합니다.

모든 작업을 처리할 수 있는 포괄적인 지식 기반이 없기 때문에 외부 데이터 세트, 웹 검색, API, 심지어 다른 AI 에이전트를 포함한 사용 가능한 도구를 사용하게 됩니다.

누락된 정보를 수집한 후, 에이전트는 지식을 업그레이드합니다. 즉, 각 단계마다 실행 계획을 재평가하고 스스로 조정합니다.

AI 에이전트가 인간에게 위협이 될지 여부는 아직 단정 짓기 이르다. 하지만 가까운 미래에는 웹의 상당 부분이 로봇으로 가득 차 서로 대화하고, 쇼핑을 하고, 주인을 대신하여 이메일을 작성하는 모습을 상상하는 것은 어렵지 않다.

뉴욕 타임스 칼럼니스트 루즈는 "드론 없는 인터넷" 이 점차 현실이 되고 있으므로 "클릭할 수 있는 동안 클릭하세요"라고 결론지었습니다.