자율 주행 기술에서 고려해야 하는 가장 어려운 점은 모든 것이 실시간이라는 것이다. 자동차가 이동하는 도로 위에서 만나는 모든 요소를 지체 없이 구분하고 분석하고 예측해야 한다. 더구나 빠른 속도로 달리는 자동차의 주행과 안전에 직결되는 만큼 사람의 판단력만큼이나 빨라야 한다.
따라서 자율 주행 자동차에 장착된 다양한 센서에서 수집하는 정보를 멀티모달 대규모 언어 모델의 도움으로 빠르게 이행하고 추론할 수 있다면, 고속으로 주행하면서 방대한 정보를 분석해야 하는 자율 주행 기술을 향상할 수 있다. 이번 연구는 이러한 멀티모달 모델을 자율 주행에 적용할 수 있는 방법을 적용해 엔드투엔드 접근 방식의 장단점을 연구하는 것이 목표다.
웨이모는 “멀티모달 대규모 언어 모델 기반에 구축된 엠마는 원시 카메라 센서 데이터를 플래너 궤적, 인식 개체, 도로 그래프 요소 등 다양한 주행 관련 출력으로 직접 매핑한다. 엠마는 모든 비센서 입력(예: 내비게이션 지침 및 차량 상태)과 출력(예: 궤적 및 3D 위치)을 자연어 텍스트로 표현하여 사전 학습된 대규모 언어 모델의 세계 지식의 활용도를 극대화한다”라고 밝혔다.