토픽 94 / 111·프로세서·반도체 트렌드 (Processor & Semiconductor Trends)
NPU/TPU (Neural Processing Unit / Tensor Processing Unit)
NPU/TPU (Neural Processing Unit / Tensor Processing Unit)
인공지능 추론·학습을 위해 특화된 프로세서로, 행렬 연산과 신경망 연산을 최적화하여 GPU보다 높은 에너지 효율과 성능을 제공
목적: AI 가속, 행렬 연산 최적화, 저전력 추론, 엣지 AI
특징: 행렬 곱셈 최적화, 낮은 정밀도(INT8/FP16), 고병렬, 저전력
NPU vs TPU
- •NPU: 범용 신경망 가속기, 모바일·엣지(Apple Neural Engine, 삼성 Exynos NPU, Qualcomm AI Engine)
- •TPU: Google 자체 설계, 데이터센터용, TensorFlow 최적화, Cloud TPU
아키텍처
- •Systolic Array: PE(Processing Element)가 격자형 배열, 데이터가 리듬에 맞춰 흐르며 행렬 곱셈 수행, 높은 연산 재사용률
- •낮은 정밀도: INT8/FP16, 4비트 양자화, 정확도 유지하며 속도·전력 효율
- •온칩 메모리: HBM/SRAM, 메모리 대역폭 최적화
성능: TPU v4 275 TFLOPS(BF16), Apple M2 Neural Engine 15.8 TOPS, 전력 효율 수십~수백 TOPS/W
장점: 높은 AI 성능, 에너지 효율, 저지연, 특화 최적화
단점: 범용성 부족, 특정 모델 최적화, 생태계 제한
적용사례: 스마트폰 AI(카메라, 음성), 엣지 추론, 클라우드 AI(TPU), 자율주행(Tesla FSD)
비교: NPU/TPU(특화/고효율) vs GPU(범용/유연) vs CPU(범용/느림)
연관: AI 가속기, Tensor Core, Systolic Array, 양자화