현대엔지비 - HYUNDAI NGV

모빌리티 트렌드

반도체 고정비 분석: 공정별 마스크, 웨이퍼, 패키지 테스트 원가 비교

작성일
2024-10-10
조회수
395

SNS 공유하기

먼저 반도체 원가를 분석해 보자. 회사마다 R&D 원가 차이가 큰 만큼 먼저 고정비 위주로 분석해보고자 한다. 고정비에는 테이프 아웃 원가와 웨이퍼 원가, 패키지 테스트 원가 등이 포함된다.

테이프 아웃(tape-out) 원가 중에서는 마스크 제작 원가가 큰 비중을 차지한다. 마스크가 제조되는 수량은 공정에 따라 다르다. 아래의 표는 TSMC의 공정별 대략적인 마스크 수이다. 새로운 공정일수록 더 많은 마스크가 제조된다는 것을 알 수 있다. (일부 공정의 마스크 수가 비슷한 것은 핀펫(FinFET) 방식으로 바꿨거나 EUV 마스크를 도입한 경우이다.)

새로운 공정에서는 마스크의 개당 원가가 높아지고, 이에 따라 전체 마스크 원가가 기하급수적으로 증가한다. 16nm 마스크 한 세트를 제조하는 데 소요되는 비용은 1억 TWD(타이완 달러), 약 2천만 위안으로 추정되며 이는 상당히 높은 금액이다. 2nm 수준이 되면 30억 TWD, 약 6억 위안이 소요된다. 삼성 8nm 마스크의 원가는 약 900만 달러이며 7nm 마스크 원가는 약 1,200~1,500만 달러, 5nm는 약 4,000~5,000만 달러이다.

테이프 아웃의 종류에는 두 가지가 있다. 하나는 Full mask로 마스크 전체가 한 번의 제조 프로세스 동안 특정 설계 하나에만 활용되는 것을 뜻한다. 또 하나는 MPW(Multi Project Wafer)로, 마스크 전체가 여러 설계 프로젝트에 활용되는 것을 뜻한다. 즉 제조 프로세스 한 번에 여러 개의 집적회로를 제조할 수 있다. 하지만 이 방식은 시간이 많이 들고 진척도를 통제할 수 없다는 단점이 있다. 자동차 업체들이 진척도를 통제할 수 없는 방법을 받아들일 수는 없을 것이므로 Xpeng과 Nio 두 회사는 모두 Full Mask 방식을 채택할 것으로 보인다.

12인치 웨이퍼 한 장의 면적은 약 70,685㎟이며 NVIDIA Orin의 다이 사이즈(die size, 실리콘 웨이퍼 한 장으로 제조할 수 있는 칩 수를 결정하는 절단면의 크기)는 450㎟이다.

출처: 인터넷

12인치 웨이퍼로 만들 수 있는 Orin 칩의 개수는 약 125개이다. TSMC의 7nm 웨이퍼의 한 장당 가격은 약 1만 달러이며 삼성 8nm 웨이퍼의 한 장당 가격은 약 6천 달러이다. Orin 칩 1개당 웨이퍼 원가가 약 48달러, 패키지 테스트 원가가 2달러이므로 Orin 칩 1개당 원가는 50달러이다. 현재 Orin 칩 1천 개의 판매시작가는 약 500달러이며 이익률은 약 90%이다. NVIDIA는 대체로 꾸준히 이익률 90%를 유지하고 있다.

Nio와 Xpeng의 자체 개발 반도체는 모두 Dual Orin의 성능을 겨냥해 제작되고 있다. 5nm 공정이라고 해도 다이 사이즈의 최저 하한선은 Orin과 비슷할 것이다. 물론 성능을 낮춘다면 다이 사이즈는 훨씬 더 작아질 수 있다. 다이 사이즈가 여전히 450㎟이라고 가정하면 웨이퍼 한 장당 125개의 칩을 만들 수 있다. TSMC의 5nm 공정을 이용한다면, TSMC 5nm 웨이퍼의 한 장당 가격이 1만 6천 달러이므로 칩 1개당 원가는 약 128달러이다. 여기에 패키지 테스트 비용 2달러를 더하면 칩 1개당 원가는 약 130달러가 된다. 4nm 공정을 이용하면 웨이퍼 한 장당 가격이 1만 9천 달러이므로 칩 1개당 원가는 약 152달러이며 총원가는 약 155달러가 된다.

TSMC는 칩의 대부분 최소 주문량을 2만 5천 개로 정하고 있다. 주문 한 번에 312만 5천 개 칩을 주문해야 하는데 이 정도의 양은 대부분의 업체가 5년을 써도 다 쓰기 힘든 양이다. 5nm의 경우 한 번에 4억 달러를 지불해야 한다. 칩 1개당 마스크 원가 약 13달러씩을 나누어 부담하면 칩 1개당 원가는 약 143달러가 된다. 최소 주문량이 워낙 많아 Xpeng과 Nio도 부담을 느낄 것으로 보인다. 알려진 바에 의하면 삼성의 최소 주문량은 TSMC보다 훨씬 적은 약 5천 개다(물론 그래도 삼성의 고객은 매우 적다). 삼성에 주문한다면 칩 62만 5천 개를 주문해야 한다. 삼성 5nm 웨이퍼의 한 장당 가격은 약 TSMC의 20%로 약 13,000달러이다. 칩 1개당 원가는 약 105달러지만 여기에 마스크 원가를 더한다면 64달러가 추가되어 칩 1개당 하드웨어 원가는 약 169달러가 된다. Tesla와 NVIDIA Orin이 계속 삼성과 거래하는 이유도 이것 때문이다.

R&D 원가 외에도 IP 구매원가, EDA 원가, Socionext 등 사에 대한 반도체 설계 및 제조 서비스 원가를 더하면 약 1억 5천만~2억 달러가 든다. 칩 62만 5천 개를 기준으로 계산하면 칩 1개당 원가는 240~320달러이며 총원가는 약 409~489달러로 NVIDIA Orin을 직접 구매하는 것보다 약간 낮다. 그러나 자체 개발 반도체를 보유하고 있으면 브랜드 이미지 제고, 기술력 입증, 시장가치 향상에 매우 큰 도움이 되기 때문에 직접적인 원가보다 간접적으로 취하게 될 이득이 훨씬 더 많다.

출처: 인터넷

40코어가 CPU의 코어를 가리키는 것은 아닐 것으로 보인다. Xpeng이 공식 홈페이지에 영문으로 40코어 CPU를 사용한다고 밝혔지만 위의 이미지에는 40코어 프로세서라고 명기되어 있다. 이로 미루어보면 아마 높은 확률로 ARM Cortex-A78AE CPU 24개, ARM MALI-G78AE GPU 12개, ARM Cortex-R52 코어 4개, 총 40코어를 세이프티 아일랜드로 활용할 것으로 보인다. 해당 CPU의 컴퓨팅 파워는 약 460kDMIPS로 Nio의 칩보다 낮다. 물론 A78AE CPU 코어가 34개, G78AE GPU 코어가 6개, R52 코어가 2개일 가능성도 배제할 수 없다. MALI-G78AE는 ARM이 차량용으로 설계한 GPU 코어로, 원형은 휴대폰용으로 설계된 MALI-G78이다. 14코어 베이스 클럭이 760MHz인 MALI-G78AE의 컴퓨팅 파워는 1360GFLOPS@FP32이다.

Xpeng은 홍보 자료에서 도메인 특화 아키텍처(DSA, Domain Specific Architecture)를 언급했다. NPU가 일종의 DSA이다. 일반적으로 AI 가속기를 CNN(합성곱 신경망, convolusion neural network)에서는 NPU라고 부르며 거대모델 트랜스포머에서는 DSA라고 부른다. 자율주행 분야의 알고리즘은 CNN 알고리즘 기반의 다중 임무 센서 네트워크에서 트랜스포머를 기본 프레임워크로 한 BEV 거대모델로 바뀌고 있다. BEV는 차세대 자율주행 감지 알고리즘으로, 기존 CNN 가속칩에 탑재하는 것이 매우 어렵거나 불가능하다. 트랜스포머 모델은 기억장치 접근에 대한 기준이 기존 CNN 알고리즘보다 훨씬 높다. 더 넓은 메모리 대역폭이 필요하며 트랜스포머 내 비선형층(nonlinear layer)의 정밀도에 대한 기준도 매우 높다. 이에 따라 더 많은 부동 소수점 연산 자원이 필요하지만 대다수의 AI가속기는 고정 소수점 연산 자원을 활용한다. Attention 모듈은 행렬곱-소프트맥스-행렬곱(matmul-softmax-matmul) 구조로 되어 있으며 서열 길이가 길 때 벡터(vector) 연산 자원에 대한 reduce 차원의 연산 기준이 매우 많다. 이외에도 BEV 모델 중 Grid Sample 알고리즘에는 집계 연산자, 분산 연산자와 같은 특수 연산자도 있다. 이러한 연산은 기존 AI 칩의 하드웨어만으로는 그 수요를 충족할 수 없으며 CPU과 유사한 연산 자원이 필요하다.

DSA는 아주 간단하며 대표적인 예시로는 Google의 TPU가 있다. 최근 AI 연산 관련 DSA들이 매우 비슷해진 상태로 기술적인 장벽은 없다. 간단히 말하자면 NPU의 MAC 행렬에 스칼라 연산과 벡터 연산 유닛을 더하는 것이다.

· 스칼라(scalar) 컴퓨팅 파워: 주로 로직 제어, 미션 조율에 쓰인다.

· 벡터(vector) 컴퓨팅 파워: 주로 활성화, 풀링(pooling), 배열 등 연산에 쓰인다.

· 행렬(matrix) 컴퓨팅 파워: 주로 행렬 곱셈을 사용하며 합성곱(convolution), 완전연결(fully connected) 등 연산에 쓰인다.

컴퓨팅 파워가 특정 연산에만 활용되는 정도가 높을 수록 컴퓨팅 파워의 범용성은 낮아지고 프로그래밍 가능성(programmability)은 떨어진다. 예를 들어 행렬, 벡터, 스칼라 컴퓨팅 파워를 각각 비행기, 고속철도, 자동차에 비교해 보자. 비행기는 속도가 가장 빠르지만 탑승 비용이 가장 높으며 몇 개의 특정 공항 사이만 오갈 수 있다. 고속철도는 상대적으로 빠르고 준비 작업이 덜 필요하며 정거장 수도 많은 편이다. 자동차는 속도가 가장 느리지만 가장 편리하며 별도의 준비 작업이 필요하지 않다. 스칼라 컴퓨팅 파워는 가장 일반적인 컴퓨팅 파워로, 기능적으로 벡터 및 행렬 연산을 포괄할 수 있으며 이론적으로 거의 모든 연산 수요를 충족할 수 있다. 같은 이치로 벡터 연산은 행렬 연산의 기능을 포함하고 있으며 행렬 연산은 행렬 연산만 할 수 있다. 컴퓨팅 파워가 특정 연산에만 활용되는 정도가 높아질 수록 컴퓨팅 파워를 쌓기 쉬워지고 에너지 효율비도 높아진다. 행렬 컴퓨팅 파워는 프로그래밍 가능성이 떨어지는 관계로 연산자 라이브러리나 도메인 특화 언어(DSL, Domain Specific Language)가 있어야만 제대로 활용할 수 있다. 벡터 컴퓨팅 파워는 DSA의 프로그래밍 가능성과 호환성을 보장하는 데에 사용되며 TPU나 NPU의 벡터 유닛, GPGPU의 CUDA core 등이 여기에 해당한다. 스칼라 컴퓨팅 파워는 주로 로직 제어에 쓰인다.

이전 글 BMW, 무공해 수송 위해 BEV와 수소차 동시에 개발

다음 글 Momenta, 양산형 자율주행 거대모델 공개 및 상용화 가능성 입증

정보마당

모빌리티 트렌드