앤트로픽의 클로드 3.5 소넷 대형 언어 모델에 컴퓨터 작동이라는 혁신적인 기능이 추가됐다. ‘컴퓨터 사용’이라 불리는 이 기능은 현재 베타 테스트 중이다. 개발자는 앤트로픽 API를 통해 클로드 3.5 소넷에게 화면 내용 해석, 텍스트 입력, 커서 이동, 버튼 클릭, 윈도우나 애플리케이션 전환 등을 지시할 수 있다. 이는 기존 RPA 도구가 수행하기 어려웠던 작업과 매우 유사하다.
클로드 3.5 소넷은 컴퓨터 사용 능력을 적용하기 위해 먼저 목표를 정의하는 프롬프트에서 시작한다. 이후 목표 달성에 필요한 단계를 파악하고, 사람이 컴퓨터 화면을 보는 것처럼 스크린샷을 분석하여 각 단계의 실행 방법을 결정한다.
이 기능의 핵심은 클로드 3.5 소넷이 이미지에서 특정 요소의 좌표를 파악하여 화면의 버튼이나 텍스트 상자에 커서를 정확히 위치시킬 수 있다는 점이다.