Learning
토픽 183 / 201·데이터 마이닝 및 분석

토픽 모델링 (Topic Modeling)

토픽 모델링 (Topic Modeling)

대량의 문서 집합에서 잠재된 주제(Topic)를 비지도 학습 방식으로 자동 추출하는 통계적 모델링 기법

특징: 비지도 학습, 확률 기반, 문서-토픽-단어 관계 모델링

주요 기법

  • LDA(Latent Dirichlet Allocation): 확률적 생성 모델, 문서=토픽 혼합 분포, 토픽=단어 분포
  • LSA(Latent Semantic Analysis): SVD 기반 단어-문서 행렬 차원 축소, 동의어/다의어 처리
  • NMF(Non-negative Matrix Factorization): 비음수 행렬 분해, 결과 해석 용이

적용사례: 뉴스 토픽 분류, 트렌드 탐지, 학술 논문 분석

비교: LDA(확률적/생성모델/해석용이) vs LSA(SVD/수학적/빠름) vs NMF(비음수/직관적)

연관: 텍스트 마이닝, NLP, 비지도 학습, 정보 검색