토픽 94 / 111·프로세서·반도체 트렌드 (Processor & Semiconductor Trends)

NPU/TPU (Neural Processing Unit / Tensor Processing Unit)

인공지능 추론·학습을 위해 특화된 프로세서로, 행렬 연산과 신경망 연산을 최적화하여 GPU보다 높은 에너지 효율과 성능을 제공

목적: AI 가속, 행렬 연산 최적화, 저전력 추론, 엣지 AI

특징: 행렬 곱셈 최적화, 낮은 정밀도(INT8/FP16), 고병렬, 저전력

NPU vs TPU

•NPU: 범용 신경망 가속기, 모바일·엣지(Apple Neural Engine, 삼성 Exynos NPU, Qualcomm AI Engine)
•TPU: Google 자체 설계, 데이터센터용, TensorFlow 최적화, Cloud TPU

아키텍처

•Systolic Array: PE(Processing Element)가 격자형 배열, 데이터가 리듬에 맞춰 흐르며 행렬 곱셈 수행, 높은 연산 재사용률
•낮은 정밀도: INT8/FP16, 4비트 양자화, 정확도 유지하며 속도·전력 효율
•온칩 메모리: HBM/SRAM, 메모리 대역폭 최적화

성능: TPU v4 275 TFLOPS(BF16), Apple M2 Neural Engine 15.8 TOPS, 전력 효율 수십~수백 TOPS/W

장점: 높은 AI 성능, 에너지 효율, 저지연, 특화 최적화

단점: 범용성 부족, 특정 모델 최적화, 생태계 제한

적용사례: 스마트폰 AI(카메라, 음성), 엣지 추론, 클라우드 AI(TPU), 자율주행(Tesla FSD)

비교: NPU/TPU(특화/고효율) vs GPU(범용/유연) vs CPU(범용/느림)

연관: AI 가속기, Tensor Core, Systolic Array, 양자화