Mixture of Experts (MoE)
Mixture of Experts (MoE)
여러 개의 전문가(Expert) 신경망과 게이팅 네트워크(Gating Network)로 구성된 앙상블 모델로, 입력에 따라 게이팅이 동적으로 활성화할 전문가를 선택하여 조건부 계산(Conditional Computation)을 수행하며 파라미터 수는 많지만 추론 시 일부만 활성화하여 효율성 확보
목적: 모델 용량 확장, 계산 효율성, 전문화된 학습, 확장성(Scalability)
특징: 희소 활성화(Sparse Activation), 동적 라우팅(Dynamic Routing), 대규모 파라미터, Top-K 게이팅, 전문가 병렬화
구성요소
- •전문가(Experts): N개의 독립 신경망(FFN), 각각 특정 패턴 전문화
- •게이팅 네트워크(Gating): 입력→전문가 선택(Softmax), Top-K 전문가 활성화
- •라우터(Router): 토큰→전문가 매핑, 부하 균형(Load Balancing)
- •보조 손실(Auxiliary Loss): 전문가 균형 유도, 과부하 방지
동작: 입력 → 게이팅(Top-K 선택) → K개 전문가 병렬 계산 → 가중 합산 → 출력
장점: 파라미터 효율성(1000억 파라미터지만 10억만 활성화), 확장성, 전문화 학습, 추론 효율
단점: 학습 불안정(게이팅 붕괴), 부하 불균형(일부 전문가 과부하), 통신 오버헤드(분산 학습), 복잡한 구현
기술요소: Top-K Gating, Expert Capacity, Load Balancing Loss, Expert Parallelism, Switch Routing
적용사례: GPT-4(추정), Switch Transformer(1.6T 파라미터), GLaM(Google), Mixtral 8x7B(Mistral AI)
비교: Dense Model(모든 파라미터 활성) vs MoE(희소 활성·파라미터많음·계산적음)
연관: Sparse Models, Conditional Computation, Transformer, LLM 확장성, Parameter-Efficient