우선, AI 모델의 수명 주기를 살펴보자. 예를 들어 오픈AI와 애저 오픈AI에서 제공하는 GPT 모델의 경우, 각 모델은 출시와 함께 지원 종료일(retirement date)이 정해진다. 이를 확인하면 현재 사용하는 모델의 교체 시점을 예측할 수 있으며, 적절한 대체 모델도 확인할 수 있다.
예를 들어 GPT-3.5의 0613 버전은 2025년 2월 13일에 지원이 종료된다. 이 모델을 사용 중이라면, 수동으로 업그레이드할지 자동 업데이트 기능을 사용할지 결정해야 한다. 자동 업데이트 기능을 활성화했다면, 모델이 같은 계열 내에서 최신 버전으로 자동 변경된다(GPT-3.5 0613 → GPT-3.5 0125). 그러나 새로운 모델이 기존 솔루션과 동일한 방식으로 동작하는지 테스트 없이 그대로 운영해도 괜찮을지 고민해야 한다.
또한, 자동 업데이트를 선택해 GPT-3.5 0125 버전으로 전환하더라도 이 모델 역시 2025년 5월 31일에 지원이 종료된다. 즉, 3개월 후에는 또 다른 모델로 업그레이드해야 한다. 이때 추천되는 대체 모델은 GPT-4.0 mini지만, 모델 계열이 다르면 자동 업데이트가 불가능하다. 따라서 장기적인 모델 수명 주기를 고려한다면 GPT-4 계열로 바로 전환하는 것이 나을 수도 있다.
GPT-4 계열을 선택할 경우, GPT-4o와 O1 중 하나를 결정해야 한다. O1은 논리적 추론과 복잡한 문제 해결에 특화된 반면, GPT-4o는 멀티모달 기능을 지원하며 텍스트 및 이미지 처리가 가능하다. 각 모델에는 mini 모델도 제공되므로, 사용 목적에 맞춰 적절한 모델을 선택해야 한다.
이처럼 조직 내에서 어떤 모델을 사용하고 있는지를 일목요연하게 정리하면, 모델 업그레이드 일정을 효과적으로 관리할 수 있다. 또한, 특정 애플리케이션에 적합한 모델을 선택할 수 있으며, 조직 전반의 AI 모델을 일관되게 유지할 수 있다.
모델 업그레이드 정책 수립
조직은 모델 업그레이드 정책을 수립해야 한다. 정책에는 모델 업데이트 프로세스를 관리하는 방안이 포함되어야 하며, 구체적으로 어떤 모델 버전으로 전환할 것인지 결정하는 과정도 명확히 해야 한다. 단순히 자동 업데이트를 활성화한 채 새로운 모델이 기존 모델과 동일하게 작동할 것이라 기대하는 것은 위험하다.
모델 업데이트에서 가장 중요한 단계는 테스트다.
기존 모델을 평가하는 데 사용한 테스트 환경(test harness) 과 테스트 지표를 보존해야 한다. 새로운 모델을 테스트할 때, 기존 평가 지표를 다시 설정해야 하는 상황을 피하려면, 테스트 환경을 유지하는 것이 중요하다. 이를 통해 새로운 모델의 결과를 기존 모델과 비교하며 검증할 수 있다.
많은 조직이 특정 모델 버전에 맞춰 프롬프트를 조정해 사용한다. 하지만 새로운 모델을 도입하면, 기존 프롬프트가 예상과 다르게 작동할 수 있다. 따라서 모델 업그레이드 과정에서는 프롬프트 테스트 및 조정(prompt tuning)이 반드시 포함되어야 한다. 이를 통해 사용자 경험을 일관되게 유지하고, 모델 변경으로 인한 신뢰 저하를 방지할 수 있다.
또한, 모델 평가 시에는 관련성(relevance), 일관성(coherence), 신뢰성(groundedness) 등의 지표를 수집해야 한다. 이러한 지표를 기존 모델과 비교함으로써, 새 모델이 기대하는 성능을 제공하는지 확인할 수 있다.
결과적으로, 새로운 모델의 출력값과 기존 모델의 결과를 비교할 수 있는 명확한 지표와 테스트 데이터를 준비해야 한다. 이를 통해, 조직 내 이해관계자들에게 모델 변경이 성능과 품질에 미치는 영향을 객관적으로 설명할 수 있다.
AI 거버넌스: 조직 전체가 함께 움직여야 한다
AI 거버넌스 구축을 주저하지 말고, 지금부터 조직 내 거버넌스 계획 수립에 참여해야 한다. 이는 AI 거버넌스를 처음부터 새롭게 설계하는 경우에도, 기존 거버넌스 체계를 확장하는 경우에도 마찬가지다.
거버넌스 모델을 마련하면, 조직 내 모든 구성원이 같은 방향을 바라보며, 일관된 정책과 절차를 따를 수 있다. 하지만 거버넌스 계획은 특정 부서에서만 일방적으로 결정할 수 있는 것이 아니다. 조직의 모든 부서가 적극적으로 의견을 내고, 실제 운영 환경을 반영하는 정책을 만들어야 한다.
각 팀은 자신의 업무 영역에 맞는 정책과 분류 체계를 고민해야 한다. 이를 기반으로 조직 전체가 AI 거버넌스 모델을 구축하면, 보다 균형 잡힌 정책이 수립될 수 있다.
그러나 거버넌스 정책이 마련되었다고 해서, 개발 및 배포를 담당하는 팀이 이를 따르지 않는다면 의미가 없다. 거버넌스가 제대로 작동하지 않으면, 조직이 목표하는 AI 전략을 달성할 수 없게 된다. 또한, 법적 문제 대응, 신뢰성과 공정성 확보, 투명성 유지, 리스크 관리 등이 어려워진다.
결국, AI 거버넌스의 성공 여부는 정확한 정책 수립, 체계적인 실행, 리더십의 적극적인 관리에 달려 있다. 올바른 거버넌스를 구축하고 운영하는 것이야말로, AI 기술이 조직에 실질적인 비즈니스 가치를 제공할 수 있도록 하는 유일한 방법이다.
필자 스티븐 카우프만은 마이크로소프트 CTO 산하 부서인 마이크로소프트 고객성공사업부(Microsoft Customer Success Unit)의 수석 아키텍트로서 AI와 클라우드 컴퓨팅 분야를 담당하고 있다. 카우프만은 대규모 기업 고객을 대상으로 30년 이상의 경험을 보유하고 있으며, 초기 개념부터 특정 애플리케이션 아키텍처, 설계, 개발, 구현에 이르기까지 AI를 이해하고 활용하는 데 도움을 제공하고 있다.
dl-ciokorea@foundryco.com