IBM의 다국어 자연어 처리 수석 연구 과학자인 한스 플로리안은 다양한 언어의 데이터 양을 추정하는 방법에 대해 “해당 언어의 위키피디아 페이지 수를 살펴보면 된다. 이는 해당 언어에서 사용 가능한 데이터의 양과 상당히 연관된다”라고 설명했다.
이 문제를 더욱 복잡하게 만드는 것은 단순히 언어나 해당 언어의 데이터양 문제뿐만 아니라 지역적인 맥락도 얽혀 있다는 점이다. 예를 들어, 특정 언어가 주로 사용되는 지역의 고유한 문화, 비즈니스 관행, 사회적 특성과 관련된 데이터 부족이 더 큰 문제일 수 있다.
모델 품질에 대해 우려하는 많은 기업이 의미 있는 가격 인하를 요구하기 시작하면, 모델 개발사가 취할 수 있는 방법은 2가지다. 일부 고객을 위해 비영어 모델 가격을 선별적으로, 그리고 비밀리에 협상하거나, 아니면 데이터 투명성을 진지하게 고려하는 것이다.