토픽 84 / 172·컴퓨터 비전과 NLP

TF-IDF (Term Frequency-Inverse Document Frequency)

단어 빈도(TF)와 역문서 빈도(IDF)의 곱으로 문서 내 단어 중요도를 산출하는 텍스트 수치화 기법

특징: 통계 기반(학습 불필요), 희소 벡터, 문맥 미반영, 간단·효과적

TF: 문서 d 내 단어 t 출현 빈도 (정규화/Log/Boolean 변형)

IDF: log(N/df(t)), 흔한 단어→IDF 작음, 희귀 단어→IDF 큼

TF-IDF: TF(t,d) × IDF(t)

활용: 정보검색(검색 랭킹), 문서 유사도(코사인), 텍스트 분류(특징 벡터), 키워드 추출

비교: TF-IDF(희소/문맥불가/학습불필요) vs Word2Vec(밀집/정적/사전학습) vs BERT(밀집/동적문맥/대규모학습)

장점: 단순·직관적, 학습 불필요, 해석 용이, 빠른 계산

단점: 문맥·어순 미반영(BoW), 동의어·다의어 미처리, 고차원 희소

적용사례: 검색 엔진(BM25 기초), 문서 분류, 추천 시스템, 표절 탐지

연관: NLP, Word2Vec, BERT, 코사인 유사도, BM25