2024년 E2E 자율주행 현황
◆ 중국의 E2E(end-to-end) 솔루션 현황
‘E2E(엔드투엔드, end-to-end)’ 자율주행 시스템은 센서 데이터 입력(카메라 이미지, 라이다 등)을 바탕으로 직접적인 매핑을 진행하여 조향, 가속/감속 등 명령 출력 제어를 실행하는 시스템을 의미한다. 이 시스템은 1988년 ALVINN 프로젝트에 처음 등장했다. 카메라와 레이저 거리 측정기(range finder)를 입력으로 이용하고 단순한 신경망을 통해 조향을 출력으로 생성한다.
2024년 초 Tesla는 FSD 12.3버전을 출시하면서 놀라운 지능형 주행 수준을 제시했다. E2E 자율주행 솔루션은 중국 자동차 제조사들과 자율주행 솔루션 기업들의 폭넓은 관심을 받고 있다.
E2E 자율주행 솔루션은 기존의 멀티 모듈(multi-module) 솔루션과 비교했을 때 인식(perception), 예측, 계획을 단일 모델로 통합하여 솔루션 구조를 간소화한다. 이 시스템은 사람 운전자가 시각적 입력 정보에 따라 직접 의사 결정을 내리는 과정을 모사하여 모듈형 솔루션의 롱테일(long tail) 시나리오에 효과적으로 대처하고 모델 훈련의 효율성과 성능을 개선할 수 있다.
기존 멀티모듈 솔루션과 E2E 솔루션 비교(일부)
일부 제조사의 E2E 솔루션 실행 및 양산 계획
◆ Li Auto의 E2E 솔루션
Li Auto는 완전한 E2E 모델은 인식, 추적, 예측, 결정, 계획으로 이루어진 전체 과정을 다루어야 하며, 이는 L3 자율주행을 달성하기 위한 최적의 솔루션이라고 생각한다. Li Auto는 2023년 AD Max3.0 계획을 공개했으며, 모든 체계가 E2E 개념을 반영하고 있었지만, 완전한 E2E 솔루션과는 여전히 차이가 있었다. 2024년 Li Auto는 이 시스템을 완전한 E2E 솔루션으로 추진할 예정이다.
Li Auto의 자율주행 체계는 아래에서 소개하며, 두 가지 시스템으로 구성되는데, 첫번째 빠른 시스템은 Li Auto의 기존 E2E 솔루션으로서 주변 상황을 인식한 직후에 실행되고, 두 번째 느린 시스템은 멀티모달(multimodal) 거대 언어 모델(large language model)로서 미지의 환경을 논리적으로 사고하고 탐색하여 알려지지 않은 L4 시나리오의 문제를 해결한다.
Li Auto는 E2E 솔루션을 추진하는 과정에서 계획/예측 모델과 인식 모델을 통일하여 주차와 주행을 통합하는 기초에 관한 E2E 시간 플래너(Temporal Planner)를 개발하고자 한다.
◆ 데이터가 E2E 솔루션 실행에서 핵심 역할 담당
E2E 솔루션을 실행하려면 R&D팀 구성과 하드웨어 시설, 데이터 수집과 가공, 알고리즘 훈련과 맞춤식 전략 계획, 검증과 평가, 추진과 양산을 아우르는 과정이 요구된다. 아래 표에서는 시나리오의 문제점 중 일부를 확인할 수 있다.
E2E 시나리오 실행 관련 문제점
E2E 자율주행 솔루션 구축을 위한 통합 훈련을 진행하려면 대규모 데이터가 필요하므로 데이터 수집과 처리와 관련된 어려움이 있다. 우선 이러한 작업에 긴 시간이 소요되며, 주행 데이터는 물론 도로, 날씨, 교통 상황 등 시나리오 데이터를 포함하여 여러 채널에서 데이터를 수집해야 한다. 실제 주행 중 운전자의 전면 시야 데이터는 상대적으로 수집하기 쉽지만 주변 정보는 획득하기 어렵다.
데이터 처리 과정에서는 데이터 추출 차원(extraction dimension)을 설계하고, 대량의 영상 클립에서 효과적인 특징을 추출하며, 데이터 분포 등의 통계를 작성하여 대규모 데이터 훈련을 지원해야 한다.
◆ DeepRoute
2024년 3월 현재 Great Wall Motor가 DeepRoute.ai의 E2E 자율주행 솔루션을 사용할 예정이며 Nvidia가 협력을 통해 참여한다. 이 솔루션은 2025년 Nvidia Thor를 기반으로 작동할 예정이다. DeepRoute.ai의 계획에 따르면 기존 솔루션을 E2E 자율주행 솔루션으로 전환하기 위해 센서의 사전 융합(pre-fusion), HD 지도 제거, 인식, 결정, 제어의 통합 작업을 진행할 것이다.
◆ GigaStudio
GigaStudio의 자율주행 모델 DriveDreamer는 시나리오와 데이터 생성, 주행 행동 예측 등을 수행할 수 있다. 시나리오/데이터 생성 과정은 두 단계로 진행된다. 첫째, 단일 프레임 구조 조건이 적용되는 경우 구조적인 교통 제약에 대한 Drive Dreamer의 이해를 돕기 위해 주행 시나리오 이미지를 생성하도록 안내한다. 시스템은 이해한 정보를 영상 생성으로 확장한다. DriverDreamer는 지속적인 교통 구조 조건을 사용하여 동작(motion) 전환에 관한 이해를 높일 수 있는 주행 장면 영상을 출력한다.
◆ E2E 솔루션으로 체화된 로봇(embodied robot) 활용 가속화
자율주행차와 더불어 체화된 로봇은 E2E 솔루션의 또다른 주류 시나리오이다. E2E 자율주행부터 로봇에 이르기까지 복잡하고 다양한 실제 활용 시나리오에 적응하려면 더욱 보편적인 실제 모델을 구축할 필요가 있다. 주류 AGI(General Artificial Intelligence, 일반 인공 지능)는 두 단계로 분류되는데, 1단계는 이해와 기본 파운데이션 모델(foundation model) 생성을 통일한 후 체화된 인공지능과 추가로 결합하여 통일된 세계 모델(world model)을 형성하는 작업이며, 2단계는 세계 모델과 복잡한 작업 계획 및 제어를 통합하는 능력과 추상적 개념의 귀납(induction)을 점진적으로 발전시켜 대화형 AGI 1.0의 시대로 나아가는 것이다.
실제 세계 모델을 구축하는 과정에서 E2E VLA(시각-언어-행동) 자율 시스템이 핵심적인 연결고리 역할을 한다. VLA는 체화된 AI의 기본 파운데이션 모델로서 3D 인식, 추론, 행동을 매끄럽게 연결하여 생성형 세계 모델을 형성한다. 이 모델은 3D 기반 거대 언어 모델(LLM)에 구축되며 주변 환경과 상호작용할 수 있는 대화형 마커(marker)를 도입한다.
2024년 4월 기준으로 E2E 솔루션을 채택하는 휴머노이드 로봇 제조사들의 현황은 아래와 같다.
체화된 로봇에 E2E 솔루션을 적용하는 방식
예를 들어, Udder AI의 거대 물리적 언어 모델(LPLM)은 자가 분류(self-labeling) 메커니즘을 사용해 미분류(unlabeled) 데이터를 다루는 모델의 학습 효율성과 품질을 개선하며, 그 결과 세계에 대한 이해가 깊어지고 교차 모드(cross-modal), 교차 장면(cross-scene), 교차 산업 시나리오에서 로봇의 생성 기능과 환경 적응력을 높일 수 있다.
LPLM은 실제 세계를 추상화하며 이러한 종류의 정보를 LLM 특징의 추상화 수준과 연계한다. 이 시스템은 물리적 세계의 각 개체(entity)를 토큰(token)으로 명시적으로 모델링하며, 기하학적, 의미론적, 운동학적(kinematic), 의도적(intentional) 정보를 암호화한다.
또한 LPLM은 자연어 지시를 암호화하는 과정에 3D 기반을 더하여 자연어의 정확성을 일정 수준 개선한다. 이 모델의 디코더(decoder)는 미래를 지속적으로 예측하는 방식으로 학습하고 이를 통해 거대한 미분류 데이터에서 학습하는 능력을 강화한다.
서울특별시 관악구 관악로 1 서울대학교 314동 현대·기아 차세대자동차 연구관 5층
TEL. 02-870-8000 / FAX.02-886-1902
COPYRIGHT ⓒ 2021 HYUNDAI NGV. ALL RIGHTS RESERVED.