토픽 199 / 201·비교표

LLM 파인튜닝과 정렬

Full Fine-Tuning vs LoRA vs QLoRA

항목	Full Fine-Tuning	LoRA	QLoRA
학습 파라미터	100%	~0.1%	~0.1% + 4비트 양자화
메모리	매우 많음	적음	최소 (48GB로 65B)
성능	최고	Full 대비 1~3%↓	LoRA와 유사
속도	느림	빠름	빠름
적용	충분한 자원 시	효율적 파인튜닝	저자원 환경

SFT vs RLHF vs RLAIF

항목	SFT	RLHF	RLAIF
정의	지시-응답 쌍 파인튜닝	인간 피드백 강화학습	AI 피드백 강화학습
피드백	지시 데이터만	인간 선호 평가	AI(헌법 기반) 평가
비용	낮음	높음 (인간 라벨링)	중간 (AI 자동화)
확장성	높음	낮음 (비싸고 느림)	높음 (빠르고 확장)
대표	Alpaca, Vicuna	ChatGPT, Llama 2	Claude (Constitutional AI)

DPO vs RLHF/PPO vs RLAIF

항목	DPO	RLHF/PPO	RLAIF
보상 모델	불필요	필요	필요 (AI 기반)
파이프라인	단순 (SFT 유사)	복잡 (3단계)	중간
안정성	안정	불안정 가능	AI 품질 의존
유연성	정적 선호 의존	높음	확장적

목록 ←AI 윤리와 안전 다음: 모델 최적화, 경량화, 서빙→