Learning
토픽 58 / 172·Transformer와 언어모델

임베딩 (Embedding)

임베딩 (Embedding)

단어·문장을 고정 차원의 연속 벡터 공간으로 변환하는 기법으로, 의미적 유사성을 벡터 거리로 표현하여 기계학습 모델의 입력으로 사용

목적: 이산→연속변환, 의미유사성표현, 차원축소, 연산가능

종류

  • Word Embedding: 단어→벡터, Word2Vec·GloVe·FastText
  • Contextualized Embedding: 문맥고려, ELMo·BERT·GPT
  • Sentence Embedding: 문장→벡터, Sentence-BERT·Universal Sentence Encoder

주요기법

  • Word2Vec: CBOW(문맥→단어)·Skip-gram(단어→문맥), 분산표현
  • GloVe: 전역 통계, 공기행렬 분해
  • FastText: 서브워드 기반, OOV처리
  • BERT Embedding: 문맥임베딩, 양방향, 동적

특성: 의미유사성(king-man+woman≈queen), 차원(50~1024), 거리(코사인유사도)

적용사례: 문서분류(평균임베딩), 유사도계산(코사인), 추천시스템(아이템임베딩), RAG(벡터검색)

비교: Word2Vec(정적·단어) vs BERT(동적·문맥) vs Sentence-BERT(문장)

연관: NLP, Word2Vec, BERT, 벡터데이터베이스, RAG