토픽 58 / 172·Transformer와 언어모델

임베딩 (Embedding)

단어·문장을 고정 차원의 연속 벡터 공간으로 변환하는 기법으로, 의미적 유사성을 벡터 거리로 표현하여 기계학습 모델의 입력으로 사용

목적: 이산→연속변환, 의미유사성표현, 차원축소, 연산가능

종류

주요기법

특성: 의미유사성(king-man+woman≈queen), 차원(50~1024), 거리(코사인유사도)

적용사례: 문서분류(평균임베딩), 유사도계산(코사인), 추천시스템(아이템임베딩), RAG(벡터검색)

비교: Word2Vec(정적·단어) vs BERT(동적·문맥) vs Sentence-BERT(문장)

연관: NLP, Word2Vec, BERT, 벡터데이터베이스, RAG