토픽 96 / 172·MLOps와 모델 운영
데이터 어노테이션/라벨링 (Data Annotation/Labeling)
데이터 어노테이션/라벨링 (Data Annotation/Labeling)
학습 데이터에 태그·레이블을 부여하여 지도학습 모델이 학습할 수 있도록 가공하는 과정으로, AI/ML 모델 성능의 핵심 요소 (관134회 출제)
유형
- •분류 라벨링(Classification): 데이터에 카테고리 레이블 부여 (예: 스팸/정상)
- •바운딩 박스(Bounding Box): 이미지 내 객체를 사각형으로 표시
- •세그멘테이션(Segmentation): 픽셀 단위 객체 영역 분할 (Semantic/Instance)
- •NER(개체명 인식): 텍스트에서 인명/지명/기관명 등 태깅
- •감성 태깅(Sentiment): 긍정/부정/중립 감성 레이블
방법
- •수동(Manual): 전문가 직접 라벨링, 높은 품질, 높은 비용
- •크라우드소싱(Crowdsourcing): Amazon MTurk 등 대규모 인력 활용, 비용↓ 품질 편차↑
- •반자동(Semi-auto): 모델 예측 + 인간 검수(Active Learning, Human-in-the-Loop)
- •자동(Auto-labeling): 사전학습 모델 활용 자동 라벨링, 약한 지도학습(Weak Supervision)
도구: Labelbox, CVAT(컴퓨터 비전), Prodigy(NLP), Label Studio, Scale AI
품질관리
- •IAA(Inter-Annotator Agreement): 라벨러 간 일치도(Cohen's Kappa, Fleiss' Kappa)
- •골드스탠다드(Gold Standard): 전문가 라벨 기준 검증
- •다중검수(Multi-review): 복수 라벨러 교차 검증, 다수결
비교: 라벨링(목적변수 부여) vs 어노테이션(메타데이터 추가, 포괄적) vs 태깅(키워드 부착)
연관: 지도학습, 데이터 전처리, Active Learning, 합성 데이터, 데이터 품질