현대엔지비

모빌리티 트렌드

XPeng, 자체 개발 자율주행 칩 양산 탑재 예정

작성일
2024-04-05
조회수
65

SNS 공유하기

NIO, XPeng, Li Auto는 모두 자체 개발한 자율주행 칩을 가지고 있으며 그 중 NIO가 가장 빠르며 XPeng이 뒤를 이어 2023년 말에 이미 샘플을 받아 2025년에 차량에 탑재할 수 있으며, Li Auto도 빠르게 전개되고 있다.

소식통에 의하면 XPeng은 2021년에 NVIDIA의 자율주행 칩을 커스터마이징 하려고 했다. 그러나 NVIDIA Orin의 후속 제품인 “Thor”가 가격의 경우 약 $1,000로 고가이며, XPeng은 2000TOPS가 불필요하다고 생각했고, 750TOPS이면 충분하다고 생각했다. 또한 그때 자동차 사업은 NVIDIA 전체 수입의 5% 미만을 차지하며 계속 하락하고 있어 미미하다고 할 수 있다. NVIDIA는 데이터센터 분야에 주력하고 있기 때문에 XPeng의 반도체 칩을 주문 제작하는 것은 당연히 불가능했다.

이 소식은 믿을 수 없을 수도 있다. 주문량이 적으면 750TOPS 커스텀 칩이라도 범용 칩인 Thor보다 훨씬 비싸기 때문이다. NVIDIA에 부딪힌 후 XPeng은 Marvell과 SOCIONEXT와 협업하기 시작했다. Marvell는 스토리지와 광대역 통신 시스템의 주요 제조업체이며 자동차 이더넷 물리층과 스위치 분야에서 세계 Top1이다. 그러나 자율주행 칩이나 SoC는 전문이 아니다. 결국 XPeng의 주요 의존 대상은 SOCIONEXT이다.

SOCIONEXT는 Fujitsu 반도체와 Panasonic 반도체 영상 및 광네트워크 부문을 합병해 2015년 설립되었다. 2024년 회계 연도에 2,170억 엔의 매출과 약 14.5%의 영업 이익률을 기록할 것으로 예상된다. SOCIONEXT의 수입은 주로 두 가지 종류가 있다. 하나는 전통적인 제품 판매 수입이고, 다른 하나는 non-recurring engineering(NRE), 즉 일회성 프로젝트 개발/엔지니어링 비용이다. 예컨대 XPeng과 같은 회사에 칩 개발 서비스를 제공하는 수입이다. NRE 수입은 SOCIONEXT 총 수입의 대략 1/6-1/5을 차지한다. SOCIONEXT의 고객은 Waymo와 Cruise도 포함한 것으로 추정한다.

SOCIONEXT 최근 11분기 사업별 수익 및 영업이익

[사진 출처: SOCIONEXT]

SOCIONEXT 최근 7분기 산업별 NRE 수익 비중(자동차 산업 비중 급증)

[사진 출처: SOCIONEXT]

SOCIONEXT 최근 7분기 지역별 NRE 수익 비중

[사진 출처: SOCIONEXT]

중국 고객사는 SOCIONEXT 수입의 약 1/5을 차지하며 미국 고객사는 가장 높은 비율을 차지한다.

SOCIONEXT 최근 7분기 제조공정별 수익 비중

참고: 제조 공정은 7나노 이하 선진 기술

[사진 출처: SOCIONEXT]

SOCIONEXT 현재 보유 주문

[사진 출처: SOCIONEXT]

현재 자동차 분야 수주는 약 ??3000억엔으로 자율주행과 HPC를 중심으로 LiDAR, 밀리미터파 레이더, 카메라(ISP로 추정) 센서 칩 등 주문 받고 있다.

SOCIONEXT 커스터마이징 SoC 프로세스

[사진 출처: SOCIONEXT]

SOCIONEXT 커스터마이징 자동차 자율주행 SoC 프레임

[사진 출처: SOCIONEXT]

현재 Xpeng의 자율주행 칩에 대한 공개 정보가 없어 일부 추측만 할 수 있다. 우선 제조 공정이 최소 5나노나 4나노 이상인데 3나노는 불가능하다. 그 이유 중에 하나는 아직 기술이 성숙하지 않았고, 다른 하나는 가격이 너무 비싸다. CPU 측면에서는 NVIDIA Orin보다 약간 성능이 좋은 일반적인 12-core 또는 16-core ARM Cortex-A78AE로 추정됨.

[사진 출처: SOCIONEXT]

Xpeng의 커스터마이징 칩은 스마트 칵핏+자율주행 일체형 칩과 유사할 것 같다. 순수한 자율주행 칩과 스마트 칵핏 애플리케이션 간의 경계가 매우 모호하므로 GPU가 있어야 하기 때문이다. GPU는 여전히 ARM으로 추정하며 최대 11-core MALI G77일 가능성이 높다. FP32 컴퓨팅 성능은 1130GFLOPS, 즉 1.13TFLOPS이다. 8비트 정수 AI 컴퓨팅을 수행할 때 컴퓨팅 성능은 4.52TFLOPS이다. ISP의 경우 SOCIONEXT자체가 충분한 IP를 보유하고 있어 NIO의 ISP보다 열등하지 않다고 추측한다.

인터페이스 측면에서는 자동차 이더넷의 대군주인 Marvell의 참여로 이더넷 대역폭이 10Gbps에 달할 수 있을 것이며, PCIe는 최소 4세대 또는 5세대, 최소 32GB/s가 될 것으로 추정한다. SDV 시대의 10Base-T1 포함한 자동차 이더넷 실현할 수 있을 것이다. 스토리지 인터페이스 측면에서 최소는 LPDDR5X이거나 Tesla만큼 발전된 GDDR6일 수 있으며 SOCIONEXT의 파트너인 CADENCE는 GDDR6의 물리 계층 및 컨트롤러 IP를 제공할 수도 있다.

HBM은 가능성이 낮다. 성능은 뛰어나지만 가격이 너무 높기 때문이다. 최소 저장 대역폭은 NVIDIA Orin의 204GB/s와 일치할 것이다.

모두가 가장 관심하는 AI 부분은 Xpeng이 자체 개발할 수도 있고, 제3자의 IP를 직접 구매할 수도 있다. AI 컴퓨팅 성능은 통계적 기준은 매우 다양하며 통일된 테스트 표준이 없기 때문에 제조업체의 자체 발표와 홍보 내용에 달려 있다.

Transformer 시대에는 AI 컴퓨팅 성능 수치가 그다지 중요하지 않다. 자동차 분야의 컴퓨팅 성능은 보통 8비트 정수 정밀도의 컴퓨팅 성능인데, 이 컴퓨팅 성능은 기존 CNN에서 연산량이 가장 많은 컨볼루션 연산에만 해당된다. 이 컴퓨팅 성능의 획득은 기술적인 난이도가 낮으며 단순히 MAC(곱하기 누산 연산) 어레이를 쌓으면 얻을 수 있으며 타사 IP도 필요하지 않다. 비용을 따지지 않으면 모든 제조업체는 몇 천 TOPS 컴퓨팅 성능을 얻을 수 있지만, 각 제조업체에는 자체 시장 포지셔닝 및 비용 고려 사항이 있으며, 이는 자연스럽게 컴퓨팅 성능 수준을 결정한다.

AI 칩으로서 엄밀히 말하면 AI 가속기와 GPU는 병렬 컴퓨팅을 위해 설계되었기 때문에 CNN 시대에는 매우 적합하지만, Post-CNN 시대에는 직렬 계산이 많아 AI 가속기에 매우 불리하고 CPU 및 DSP에 적합하다. 예를 들어 NMS(Non-Maximum Suppression)가 있다. 트랜스포머(Transformer)의 경우도 마찬가지인데, 직렬 컴퓨팅 성능이 필요할 뿐만 아니라 충분한 저장 대역폭 지원도 필요하다. 트랜스포머 앞에서 순수 AI 컴퓨팅 파워 값은 의미가 없다. 실제로 이는 트랜스포머뿐만 아니라 현재 주류인 YOLOV4, YOLOV5 및 RESNET50과 같은 CNN의 다양한 변형도 그렇다.

AI 연산자를 직렬(Serial)형과 병렬(Parallel)형으로 구분하는데, 직렬형은 대개 요소별(element-wise)이다. 즉, 벡터와 행렬 사이의 연산으로 두 가지 특징이 있다. 첫째, 일반적으로 직렬 계산이고, 둘째, 데이터 저장 작업 수가 많아 저장 대역폭을 많이 소모한다. 이에 AI 컴퓨팅 성능에 대한 요구는 낮지만 저장 속도 및 CPU 컴퓨팅 성능에 대한 요구가 높다. DSP는 데이터와 명령 버스가 분리되고 효율성이 높은 Harvard 아키텍처이기 때문에 이러한 유형의 연산에 가장 적합하다. 그러나 DSP 컴파일러는 개발이 매우 어렵고 자동차와 같은 폐쇄형 시스템에서만 사용할 수 있다. 병렬 컴퓨팅을 위해 설계된 GPU 및 AI 칩은 이러한 요소별 계산에 적합하지 않으며, 이러한 계산을 접할 때 일반적으로 CPU로 돌아가 계산을 수행한다. 이것이 NVIDIA와 Microsoft가 자신의 CPU 열심히 개발한 주요 이유이다.

트랜스포머 계산 과정

이 계산 과정에서 행렬 곱셈은 일반적인 계산 집약적 연산자이다. GEMM(GEneral Matrix multiplication)이라고도 한다. 저장 집약적인 연산자에는 두 가지 유형이 있다. 하나는 벡터 또는 텐서의 신경 활성화, 다중 비선형 연산(GEMV)으로 일반적인 행렬 벡터 곱셈이고, 다른 하나는 위에서 언급한 대개 요소별(element-wise) 연산이다.

Xpeng의 자율주행 칩의 AI 부분 아키텍처는 위 사진과 동일 할 것으로 추측된다. 물론 FP16 어레이는 제거 가능하다. 이 디자인은 스칼라 연산 장치와 벡터 연산 장치를 모두 갖추고 있어 알고리즘의 대폭 변화에 적응할 수 있는 충분한 유연성을 보장할 수 있다. SRAM의 용량은 1MiB에 불과할 수 있으며 8MiB의 원가는 너무 높다. INT8 어레이에는 16,384개의 MAC이 있으며 컴퓨팅 성능은 약 800TOPS이며 주파수가 높으면 거의 1000TOPS를 달할 수 있다.

자체 개발한 자율주행 칩의 사용량은 상대적으로 적기 때문에 비용은 확실히 NVIDIA Orin보다 훨씬 높다. 자율주행 칩의 자체 개발은 주로 전체 자율주행 기술을 완전히 장악하고 기술력과 시장 가치를 높이며 제품 교체를 가속화하기 위한 것이다.

이전 글 일본 ASRA, Toyota / Nissan 등 참여 - `30년 Chiplet형 SoC 공동 개발 추진

다음 글 Geely-Ecarx, 1천위안 ($138) 가격대의 LiDAR 개발

정보마당

모빌리티 트렌드