토픽 183 / 201·데이터 마이닝 및 분석
토픽 모델링 (Topic Modeling)
토픽 모델링 (Topic Modeling)
대량의 문서 집합에서 잠재된 주제(Topic)를 비지도 학습 방식으로 자동 추출하는 통계적 모델링 기법
특징: 비지도 학습, 확률 기반, 문서-토픽-단어 관계 모델링
주요 기법
- •LDA(Latent Dirichlet Allocation): 확률적 생성 모델, 문서=토픽 혼합 분포, 토픽=단어 분포
- •LSA(Latent Semantic Analysis): SVD 기반 단어-문서 행렬 차원 축소, 동의어/다의어 처리
- •NMF(Non-negative Matrix Factorization): 비음수 행렬 분해, 결과 해석 용이
적용사례: 뉴스 토픽 분류, 트렌드 탐지, 학술 논문 분석
비교: LDA(확률적/생성모델/해석용이) vs LSA(SVD/수학적/빠름) vs NMF(비음수/직관적)
연관: 텍스트 마이닝, NLP, 비지도 학습, 정보 검색