토픽 130 / 172·고급 학습 기법
LLM Evaluation 메트릭 (LLM Evaluation Metrics)
LLM Evaluation 메트릭 (LLM Evaluation Metrics)
Large Language Model의 성능을 정량적으로 측정하기 위한 지표로, 언어 모델링 능력(Perplexity), 생성 품질(BLEU, ROUGE), 추론 능력, 인간 평가 등 다양한 차원에서 평가
목적: 모델 성능 비교, 개선 방향 도출, 품질 보증, 벤치마킹, 선택 기준 제공
특징: 태스크별 메트릭 다름, 자동 메트릭 한계, 인간 평가 중요, 다면적 평가 필요
자동 메트릭
- •Perplexity(PPL): 언어 모델의 불확실성, 낮을수록 좋음, PPL = exp(Loss)
- •BLEU(Bilingual Evaluation Understudy): n-gram 정밀도, 번역/요약 평가
- •ROUGE(Recall-Oriented Understudy for Gisting Evaluation): 재현율 기반, 요약 평가, ROUGE-L(LCS)
- •BERTScore: BERT 임베딩 유사도, 의미적 평가
- •METEOR: 동의어·형태소 고려, BLEU 보완
- •Exact Match(EM): 정확히 일치 비율, QA 평가
- •F1 Score: 토큰 수준 정밀도·재현율, QA 평가
벤치마크
- •MMLU: 다분야 지식 평가, 57개 과목
- •HellaSwag: 상식 추론
- •TruthfulQA: 사실성 평가
- •HumanEval: 코드 생성 능력
- •GSM8K: 수학 추론
- •MT-Bench: 멀티턴 대화
인간 평가: 유창성, 일관성, 사실성, 유용성, A/B 테스트, Elo Rating
장점: 객관적 비교, 재현 가능, 자동화, 표준화
단점: 자동 메트릭-인간 판단 괴리, 단일 지표 한계, 컨텍스트 무시
적용사례: 모델 선택, 파인튜닝 평가, 프롬프트 최적화, 연구 벤치마킹
비교: Perplexity(언어모델링) vs BLEU(번역) vs ROUGE(요약) vs 인간평가(종합)
연관: 벤치마크, MMLU, 인간 평가, Perplexity, LLM 성능