토픽 199 / 201·비교표
LLM 파인튜닝과 정렬
Full Fine-Tuning vs LoRA vs QLoRA
| 항목 | Full Fine-Tuning | LoRA | QLoRA |
|---|---|---|---|
| 학습 파라미터 | 100% | ~0.1% | ~0.1% + 4비트 양자화 |
| 메모리 | 매우 많음 | 적음 | 최소 (48GB로 65B) |
| 성능 | 최고 | Full 대비 1~3%↓ | LoRA와 유사 |
| 속도 | 느림 | 빠름 | 빠름 |
| 적용 | 충분한 자원 시 | 효율적 파인튜닝 | 저자원 환경 |
SFT vs RLHF vs RLAIF
| 항목 | SFT | RLHF | RLAIF |
|---|---|---|---|
| 정의 | 지시-응답 쌍 파인튜닝 | 인간 피드백 강화학습 | AI 피드백 강화학습 |
| 피드백 | 지시 데이터만 | 인간 선호 평가 | AI(헌법 기반) 평가 |
| 비용 | 낮음 | 높음 (인간 라벨링) | 중간 (AI 자동화) |
| 확장성 | 높음 | 낮음 (비싸고 느림) | 높음 (빠르고 확장) |
| 대표 | Alpaca, Vicuna | ChatGPT, Llama 2 | Claude (Constitutional AI) |
DPO vs RLHF/PPO vs RLAIF
| 항목 | DPO | RLHF/PPO | RLAIF |
|---|---|---|---|
| 보상 모델 | 불필요 | 필요 | 필요 (AI 기반) |
| 파이프라인 | 단순 (SFT 유사) | 복잡 (3단계) | 중간 |
| 안정성 | 안정 | 불안정 가능 | AI 품질 의존 |
| 유연성 | 정적 선호 의존 | 높음 | 확장적 |