Learning
토픽 199 / 201·비교표

LLM 파인튜닝과 정렬

Full Fine-Tuning vs LoRA vs QLoRA

항목Full Fine-TuningLoRAQLoRA
학습 파라미터100%~0.1%~0.1% + 4비트 양자화
메모리매우 많음적음최소 (48GB로 65B)
성능최고Full 대비 1~3%↓LoRA와 유사
속도느림빠름빠름
적용충분한 자원 시효율적 파인튜닝저자원 환경

SFT vs RLHF vs RLAIF

항목SFTRLHFRLAIF
정의지시-응답 쌍 파인튜닝인간 피드백 강화학습AI 피드백 강화학습
피드백지시 데이터만인간 선호 평가AI(헌법 기반) 평가
비용낮음높음 (인간 라벨링)중간 (AI 자동화)
확장성높음낮음 (비싸고 느림)높음 (빠르고 확장)
대표Alpaca, VicunaChatGPT, Llama 2Claude (Constitutional AI)

DPO vs RLHF/PPO vs RLAIF

항목DPORLHF/PPORLAIF
보상 모델불필요필요필요 (AI 기반)
파이프라인단순 (SFT 유사)복잡 (3단계)중간
안정성안정불안정 가능AI 품질 의존
유연성정적 선호 의존높음확장적