토픽 139 / 172·고급 학습 기법
Embedding 기법 (Embedding Techniques)
Embedding 기법 (Embedding Techniques)
고차원의 이산적 데이터(단어, 사용자, 아이템 등)를 저차원의 연속적인 밀집 벡터로 변환하여 의미적 유사성을 수치적 거리로 표현하는 기법
목적: 의미 표현, 유사도 계산, 차원 축소, 모델 입력, 검색/추천 활용
특징: 밀집 벡터, 학습 가능, 의미적 관계 보존, 다양한 도메인 적용
임베딩 유형
- •Word Embedding:
- •Sentence/Document Embedding:
- •Entity Embedding: 범주형 변수, 딥러닝 임베딩 레이어
- •Graph Embedding: Node2Vec, Graph Neural Network
- •Image Embedding: CNN Feature, CLIP, ViT
학습 방법
- •사전 학습(Pre-trained): GPT, BERT, OpenAI Embedding
- •태스크 특화 학습: 추천, 분류 목적 함수
- •대조 학습(Contrastive Learning): 유사 쌍 가깝게, 비유사 멀게
활용
- •검색: 유사도 기반 검색, Vector Search
- •추천: 사용자-아이템 임베딩, Collaborative Filtering
- •분류: 특징 추출, Transfer Learning
- •클러스터링: 의미 기반 군집화
장점: 의미 표현, 유사도 계산, 차원 축소, 전이 학습
단점: 학습 비용, 도메인 의존, 해석 어려움, 임베딩 품질 의존
적용사례: 검색 엔진, 추천 시스템, 문서 분류, 챗봇
비교: Word2Vec(단어/빠름) vs BERT(문맥/무거움) vs OpenAI(범용/API)
연관: Vector DB, RAG, 유사도 검색, NLP, 추천 시스템