“기업에 매력적이지만 도입은 쉽지 않다”
초기 테스트 결과에 따르면 o3-pro는 2024년 AIME 수학 벤치마크에서 구글의 제미나이 2.5 프로, GPQA 다이아몬드 과학 테스트에서 앤트로픽의 클로드 4 오퍼스(Claude 4 Opus)보다 우수한 성능을 보였다.
리뷰어들은 이 모델이 과학, 교육, 프로그래밍, 비즈니스, 글쓰기 분야에서 최고 수준이라고 평가했다. 오픈AI는 특히 웹 검색, 파일 분석, 시각 입력 기반 추론 등의 고급 기능을 통해 물리학이나 코딩처럼 복잡한 작업에서도 안정적인 결과를 제공한다고 설명했다.
오픈AI의 공격적 가격 인하에도 중기업들은 도입에 어려움을 겪을 수 있다. 싱은 “가격 인하는 문을 열었을 뿐, 복도까지 만든 건 아니다. 모델 접근성이 좋아졌다고 해서 곧바로 확장 가능한 배포가 보장되는 것은 아니다. 실제 병목은 조정 체계, 규제 준수, 거버넌스에 있다”라고 말했다.