토픽 47 / 172·Transformer와 언어모델

SSM / Mamba (State Space Model)

상태 공간 방정식 기반으로 시퀀스를 선형 시간에 처리하는 딥러닝 아키텍처로, Transformer의 O(n²) 복잡도 한계를 극복하여 긴 시퀀스를 효율적으로 처리

특징: O(n) 선형 복잡도, 긴 시퀀스 처리 효율적(수만~수십만 토큰), 선택적 상태 공간(Selective SSM, 입력 의존 파라미터), 하드웨어 최적화(GPU 스캔 연산)

동작원리

Mamba 특징: S6(Selective Structured State Space), 입력 의존 파라미터로 컨텍스트 인식, 게이팅 메커니즘, Transformer 없이 경쟁적 성능

비교: Transformer(O(n²)/어텐션/병렬학습/긴문맥비효율) vs SSM/Mamba(O(n)/상태공간/선형추론/긴문맥효율) vs RWKV(O(n)/RNN변형/선형어텐션/학습안정)

연관: Transformer, Attention, 시퀀스 모델링, RNN, Linear Attention