토픽 109 / 172·고급 학습 기법

Mixture of Experts (MoE)

여러 개의 전문가(Expert) 신경망과 게이팅 네트워크(Gating Network)로 구성된 앙상블 모델로, 입력에 따라 게이팅이 동적으로 활성화할 전문가를 선택하여 조건부 계산(Conditional Computation)을 수행하며 파라미터 수는 많지만 추론 시 일부만 활성화하여 효율성 확보

목적: 모델 용량 확장, 계산 효율성, 전문화된 학습, 확장성(Scalability)

특징: 희소 활성화(Sparse Activation), 동적 라우팅(Dynamic Routing), 대규모 파라미터, Top-K 게이팅, 전문가 병렬화

구성요소

•전문가(Experts): N개의 독립 신경망(FFN), 각각 특정 패턴 전문화
•게이팅 네트워크(Gating): 입력→전문가 선택(Softmax), Top-K 전문가 활성화
•라우터(Router): 토큰→전문가 매핑, 부하 균형(Load Balancing)
•보조 손실(Auxiliary Loss): 전문가 균형 유도, 과부하 방지

동작: 입력 → 게이팅(Top-K 선택) → K개 전문가 병렬 계산 → 가중 합산 → 출력

장점: 파라미터 효율성(1000억 파라미터지만 10억만 활성화), 확장성, 전문화 학습, 추론 효율

단점: 학습 불안정(게이팅 붕괴), 부하 불균형(일부 전문가 과부하), 통신 오버헤드(분산 학습), 복잡한 구현

기술요소: Top-K Gating, Expert Capacity, Load Balancing Loss, Expert Parallelism, Switch Routing

적용사례: GPT-4(추정), Switch Transformer(1.6T 파라미터), GLaM(Google), Mixtral 8x7B(Mistral AI)

비교: Dense Model(모든 파라미터 활성) vs MoE(희소 활성·파라미터많음·계산적음)

연관: Sparse Models, Conditional Computation, Transformer, LLM 확장성, Parameter-Efficient

목록 ←Federated Learning (연합학습)다음: LoRA / QLoRA (Low-Rank Adaptation)→