Learning
토픽 96 / 172·MLOps와 모델 운영

데이터 어노테이션/라벨링 (Data Annotation/Labeling)

데이터 어노테이션/라벨링 (Data Annotation/Labeling)

학습 데이터에 태그·레이블을 부여하여 지도학습 모델이 학습할 수 있도록 가공하는 과정으로, AI/ML 모델 성능의 핵심 요소 (관134회 출제)

유형

  • 분류 라벨링(Classification): 데이터에 카테고리 레이블 부여 (예: 스팸/정상)
  • 바운딩 박스(Bounding Box): 이미지 내 객체를 사각형으로 표시
  • 세그멘테이션(Segmentation): 픽셀 단위 객체 영역 분할 (Semantic/Instance)
  • NER(개체명 인식): 텍스트에서 인명/지명/기관명 등 태깅
  • 감성 태깅(Sentiment): 긍정/부정/중립 감성 레이블

방법

  • 수동(Manual): 전문가 직접 라벨링, 높은 품질, 높은 비용
  • 크라우드소싱(Crowdsourcing): Amazon MTurk 등 대규모 인력 활용, 비용↓ 품질 편차↑
  • 반자동(Semi-auto): 모델 예측 + 인간 검수(Active Learning, Human-in-the-Loop)
  • 자동(Auto-labeling): 사전학습 모델 활용 자동 라벨링, 약한 지도학습(Weak Supervision)

도구: Labelbox, CVAT(컴퓨터 비전), Prodigy(NLP), Label Studio, Scale AI

품질관리

  • IAA(Inter-Annotator Agreement): 라벨러 간 일치도(Cohen's Kappa, Fleiss' Kappa)
  • 골드스탠다드(Gold Standard): 전문가 라벨 기준 검증
  • 다중검수(Multi-review): 복수 라벨러 교차 검증, 다수결

비교: 라벨링(목적변수 부여) vs 어노테이션(메타데이터 추가, 포괄적) vs 태깅(키워드 부착)

연관: 지도학습, 데이터 전처리, Active Learning, 합성 데이터, 데이터 품질