경험 있는 기업이 언급한 데이터센터 네트워크의 주요 문제는 필요 이상으로 AI 클러스터를 구축하는 데 있었다. 인기 있는 LLM을 실행하려면 수백 개의 GPU와 서버가 필요하지만, 소규모 언어 모델은 단일 시스템에서 실행할 수 있다. 현재 자체 호스팅 기업의 3분의 1은 소규모 모델로 시작해 경험을 쌓고 필요성을 입증할 수 있을 때만 확장하는 것이 최선이라고 말했다. 이들은 또한 실제로 유용한 AI 애플리케이션만 실행되도록 통제가 필요하다고 지적했다. 사용자들은 “그렇지 않으면 애플리케이션이 증가해 AI 클러스터의 크기를 초과하고, 규모가 더 커지게 된다”라고 말했다.
현재 AI 자체 호스팅 기업의 사용자 모두는 다른 애플리케이션에 잠재적인 정체 영향을 미칠 수 있기 때문에 AI 수평 트래픽을 기본 데이터센터 네트워크에서 분리해야 한다고 말했다. 호스팅된 생성형 AI 수평 트래픽은 엄청나고 예측할 수 없을 가능성이 높다. 한 기업은 자사 클러스터가 전체 데이터센터 규모만큼의 수평 트래픽을 생성할 수 있지만, 이는 대부분 1분을 넘지 않는 버스트 형태로 발생한다고 언급했다. 또한 수평 버스트의 지연 시간이 결과 전달과 버스트 길이를 크게 늘려 애플리케이션 가치를 상당히 저해할 수 있다고 지적했다.
AI 클러스터와 기업 핵심 데이터 저장소 간의 데이터 관계는 복잡하며, 이 관계에 따라 AI 클러스터가 나머지 데이터센터에 미치는 영향이 결정된다. 여기서 문제는 지원되는 애플리케이션과 구현 방식 모두가 데이터센터 저장소에서 AI로 데이터가 이동하는 방식에 큰 영향을 미친다는 점이다.