Learning
토픽 130 / 172·고급 학습 기법

LLM Evaluation 메트릭 (LLM Evaluation Metrics)

LLM Evaluation 메트릭 (LLM Evaluation Metrics)

Large Language Model의 성능을 정량적으로 측정하기 위한 지표로, 언어 모델링 능력(Perplexity), 생성 품질(BLEU, ROUGE), 추론 능력, 인간 평가 등 다양한 차원에서 평가

목적: 모델 성능 비교, 개선 방향 도출, 품질 보증, 벤치마킹, 선택 기준 제공

특징: 태스크별 메트릭 다름, 자동 메트릭 한계, 인간 평가 중요, 다면적 평가 필요

자동 메트릭

  • Perplexity(PPL): 언어 모델의 불확실성, 낮을수록 좋음, PPL = exp(Loss)
  • BLEU(Bilingual Evaluation Understudy): n-gram 정밀도, 번역/요약 평가
  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation): 재현율 기반, 요약 평가, ROUGE-L(LCS)
  • BERTScore: BERT 임베딩 유사도, 의미적 평가
  • METEOR: 동의어·형태소 고려, BLEU 보완
  • Exact Match(EM): 정확히 일치 비율, QA 평가
  • F1 Score: 토큰 수준 정밀도·재현율, QA 평가

벤치마크

  • MMLU: 다분야 지식 평가, 57개 과목
  • HellaSwag: 상식 추론
  • TruthfulQA: 사실성 평가
  • HumanEval: 코드 생성 능력
  • GSM8K: 수학 추론
  • MT-Bench: 멀티턴 대화

인간 평가: 유창성, 일관성, 사실성, 유용성, A/B 테스트, Elo Rating

장점: 객관적 비교, 재현 가능, 자동화, 표준화

단점: 자동 메트릭-인간 판단 괴리, 단일 지표 한계, 컨텍스트 무시

적용사례: 모델 선택, 파인튜닝 평가, 프롬프트 최적화, 연구 벤치마킹

비교: Perplexity(언어모델링) vs BLEU(번역) vs ROUGE(요약) vs 인간평가(종합)

연관: 벤치마크, MMLU, 인간 평가, Perplexity, LLM 성능