스노우플레이크는 스위프트KV에 최적화된 LLM이 정확도 손실을 최소화한다고 언급했지만, 심민은 구현의 복잡성, 성능 저하 수준, 기본 추론 아키텍처와의 호환성 측면에서 상충되는 부분이 있을 수 있다고 지적했다.
그는 “양자화 같은 방법이 인기 있는 이유는 그만큼 상충되는 부분이 적기 때문이다. 만약 고객들이 스위프트KV도 양자화처럼 가치가 있다고 판단한다면, 프로젝트의 필요에 따라 다른 최적화 기법들과 함께 활용할 것으로 예상된다”라고 말했다.
스위프트KV 사용 방법
기업은 스노우플레이크를 통해 스위프트KV에 접근하거나 허깅페이스(Hugging Face)의 모델 체크포인트 또는 vLLM에서 최적화된 추론을 실행할 수 있다. 허깅페이스의 모델 체크포인트란 학습 중 모델의 가중치를 저장한 세트다. vLLM은 LLM 추론과 서빙을 위한 라이브러리다.