Learning
토픽 139 / 172·고급 학습 기법

Embedding 기법 (Embedding Techniques)

Embedding 기법 (Embedding Techniques)

고차원의 이산적 데이터(단어, 사용자, 아이템 등)를 저차원의 연속적인 밀집 벡터로 변환하여 의미적 유사성을 수치적 거리로 표현하는 기법

목적: 의미 표현, 유사도 계산, 차원 축소, 모델 입력, 검색/추천 활용

특징: 밀집 벡터, 학습 가능, 의미적 관계 보존, 다양한 도메인 적용

임베딩 유형

  • Word Embedding:
  • Sentence/Document Embedding:
  • Entity Embedding: 범주형 변수, 딥러닝 임베딩 레이어
  • Graph Embedding: Node2Vec, Graph Neural Network
  • Image Embedding: CNN Feature, CLIP, ViT

학습 방법

  • 사전 학습(Pre-trained): GPT, BERT, OpenAI Embedding
  • 태스크 특화 학습: 추천, 분류 목적 함수
  • 대조 학습(Contrastive Learning): 유사 쌍 가깝게, 비유사 멀게

활용

  • 검색: 유사도 기반 검색, Vector Search
  • 추천: 사용자-아이템 임베딩, Collaborative Filtering
  • 분류: 특징 추출, Transfer Learning
  • 클러스터링: 의미 기반 군집화

장점: 의미 표현, 유사도 계산, 차원 축소, 전이 학습

단점: 학습 비용, 도메인 의존, 해석 어려움, 임베딩 품질 의존

적용사례: 검색 엔진, 추천 시스템, 문서 분류, 챗봇

비교: Word2Vec(단어/빠름) vs BERT(문맥/무거움) vs OpenAI(범용/API)

연관: Vector DB, RAG, 유사도 검색, NLP, 추천 시스템