토픽 58 / 172·Transformer와 언어모델
임베딩 (Embedding)
임베딩 (Embedding)
단어·문장을 고정 차원의 연속 벡터 공간으로 변환하는 기법으로, 의미적 유사성을 벡터 거리로 표현하여 기계학습 모델의 입력으로 사용
목적: 이산→연속변환, 의미유사성표현, 차원축소, 연산가능
종류
- •Word Embedding: 단어→벡터, Word2Vec·GloVe·FastText
- •Contextualized Embedding: 문맥고려, ELMo·BERT·GPT
- •Sentence Embedding: 문장→벡터, Sentence-BERT·Universal Sentence Encoder
주요기법
- •Word2Vec: CBOW(문맥→단어)·Skip-gram(단어→문맥), 분산표현
- •GloVe: 전역 통계, 공기행렬 분해
- •FastText: 서브워드 기반, OOV처리
- •BERT Embedding: 문맥임베딩, 양방향, 동적
특성: 의미유사성(king-man+woman≈queen), 차원(50~1024), 거리(코사인유사도)
적용사례: 문서분류(평균임베딩), 유사도계산(코사인), 추천시스템(아이템임베딩), RAG(벡터검색)
비교: Word2Vec(정적·단어) vs BERT(동적·문맥) vs Sentence-BERT(문장)
연관: NLP, Word2Vec, BERT, 벡터데이터베이스, RAG