토픽 182 / 201·데이터 마이닝 및 분석
텍스트 마이닝 (Text Mining)
텍스트 마이닝 (Text Mining)
비정형 텍스트 데이터에서 자연어 처리(NLP) 기법을 활용하여 유의미한 정보, 패턴, 지식을 추출하는 데이터 마이닝 기법
특징: 비정형 데이터 분석, 전처리 과정 중요, NLP 기반
전처리 파이프라인: 토큰화 -> 불용어 제거 -> 어간 추출/표제어 추출 -> 벡터화(TF-IDF, Word2Vec)
구성요소
- •분류(Classification): 감성 분석, 스팸 탐지
- •군집화(Clustering): 유사 문서 그룹화
- •개체명 인식(NER): 인명, 지명, 기관명 추출
- •관계 추출(Relation Extraction): 개체 간 관계 식별
- •요약(Summarization): 문서 핵심 내용 추출
적용사례: 뉴스 분류, 리뷰 감성 분석, 특허 분석, VOC 분석
비교: 텍스트 마이닝(비정형/NLP) vs 데이터 마이닝(정형/통계)
연관: NLP, 머신러닝, 빅데이터, 감성 분석