첫째, 대규모 데이터 세트에는 오류, 불일치, 편향이 포함될 가능성이 커서 모델 결과에 영향을 미칠 수 있다. 데이터가 너무 많으면 모델이 학습하는 내용을 제어하기가 어려워져 학습 데이터 세트에 집착하게 되고 새로운 데이터에 대한 효율성이 떨어질 가능성이 있다. 둘째, AI 모델이 학습하는 데이터 내에서 빈번하게 나타나는 정보(다수 개념)가 상대적으로 드문 정보(소수 개념)를 덮어버릴 수 있다. 다시말해 모델이 전체적인 데이터의 경향에만 맞춰져서 특정한 상황이나 예외적인 경우를 제대로 학습하지 못하고, 새로운 데이터나 예상치 못한 상황에서는 잘 작동하지 않을 수 있다.
셋째, 데이터가 너무 많으면 이를 처리하는 데 시간이 오래 걸려, AI 모델을 개선하기 위한 실험이나 업데이트가 늦어지고, 결과적으로 중요한 의사결정을 내리는 데 걸리는 시간도 길어진다. 마지막으로, 소규모 조직이나 스타트업의 경우 대규모 데이터 세트를 처리하는 데 비용이 많이 들 수 있다
AI 프로젝트를 성공하려면 조직은 충분한 데이터를 확보하면서도 적절한 데이터를 확보하는 균형을 맞춰야 한다. 즉, 데이터 축적을 넘어 데이터 품질에 집중해야 한다. 데이터 정제, 검증, 보강과 같은 절차에 투자함으로써 고품질 데이터 기반의 AI 모델을 구축하고 실제 운영 환경에서도 효율적으로 확장하고 성능을 유지할 수 있도록 해야 한다.