23일 공개된 오퍼레이터는 웹페이지를 자율적으로 탐색하고 사용자가 요청한 작업을 수행하는 AI 기술이다. 웹사이트의 전체 화면을 인식해 클릭, 스크롤, 타이핑 등 실제 사용자처럼 웹 브라우저를 조작하며 원하는 작업을 자동으로 수행한다.
구체적인 작동 방식은 다음과 같다. 사용자가 ‘메모지에 적힌 식료품을 인스타카트에서 구매해줘’라고 요청하면, 오퍼레이터는 자동으로 쇼핑몰 인스타카트에 접속해 메모지의 물품들을 장바구니에 담는다. 결제 단계에서는 사용자 확인을 거친 후 구매를 완료한다. 모든 과정은 영상으로 기록되며, 사용자는 언제든 개입해 추가 지시를 내리거나 직접 제어할 수 있다. 특정 쇼핑몰을 지정하지 않은 경우에는 오퍼레이터가 최적의 쇼핑몰을 검색한 후 사용자의 승인을 받고 진행한다.
오픈AI 기술진의 나카노 레이치로는 오퍼레이터가 GPT-4의 비전 기능과 강화학습을 결합한 자체 모델을 기반으로 한다고 설명했다. ‘컴퓨터 사용 에이전트(Computer Using Agent, CUA・쿠아라고 읽는다)’로 불리는 이 모델은 사람의 컴퓨터 사용 패턴을 기반으로 훈련됐으며, 오픈AI 연구진은 CUA가 AGI 개발의 주요 장벽을 해소하고 디지털 환경에서 실질적으로 작동하는 에이전트의 기반을 마련했다고 밝혔다.
오픈AI는 오퍼레이터를 통해 AI를 단순한 도구에서 디지털 생태계의 적극적 참여자로 발전시키겠다는 목표다. 도어대시, 인스타카트, 오픈테이블, 프라이스라인, 우버 등과 협력해 실용적인 서비스를 개발 중이다.
보안을 위해 로그인 정보나 결제 상세 정보 입력 시에는 사용자의 직접 개입이 필요하며, 주문 완료나 이메일 발송 같은 중요 작업도 사용자 확인 후 실행된다. 은행 거래 등 민감한 작업이나 불법적 요청은 원천 차단된다. 자동 및 수동 리뷰를 통해 불법적이거나 악의적인 작업이 감지되면 오퍼레이터는 즉시 작동을 중단한다.
오퍼레이터는 현재 미국 일부 사용자를 대상으로 서비스 중이며, 향후 전 세계로 확대될 예정이다. 또한 CUA API를 통해 외부 개발자가 자체 에이전트를 개발할 수 있도록 지원할 계획이다.
한편 오픈AI의 경쟁사인 앤트로픽도 지난해 10월 ‘컴퓨터 사용‘ 기능을 선보인 바 있다.
jihyun.lee@foundryco.com