토픽 96 / 172·MLOps와 모델 운영

데이터 어노테이션/라벨링 (Data Annotation/Labeling)

데이터 어노테이션/라벨링 (Data Annotation/Labeling)

학습 데이터에 태그·레이블을 부여하여 지도학습 모델이 학습할 수 있도록 가공하는 과정으로, AI/ML 모델 성능의 핵심 요소 (관134회 출제)

유형

•분류 라벨링(Classification): 데이터에 카테고리 레이블 부여 (예: 스팸/정상)
•바운딩 박스(Bounding Box): 이미지 내 객체를 사각형으로 표시
•세그멘테이션(Segmentation): 픽셀 단위 객체 영역 분할 (Semantic/Instance)
•NER(개체명 인식): 텍스트에서 인명/지명/기관명 등 태깅
•감성 태깅(Sentiment): 긍정/부정/중립 감성 레이블

방법

•수동(Manual): 전문가 직접 라벨링, 높은 품질, 높은 비용
•크라우드소싱(Crowdsourcing): Amazon MTurk 등 대규모 인력 활용, 비용↓ 품질 편차↑
•반자동(Semi-auto): 모델 예측 + 인간 검수(Active Learning, Human-in-the-Loop)
•자동(Auto-labeling): 사전학습 모델 활용 자동 라벨링, 약한 지도학습(Weak Supervision)

도구: Labelbox, CVAT(컴퓨터 비전), Prodigy(NLP), Label Studio, Scale AI

품질관리

•IAA(Inter-Annotator Agreement): 라벨러 간 일치도(Cohen's Kappa, Fleiss' Kappa)
•골드스탠다드(Gold Standard): 전문가 라벨 기준 검증
•다중검수(Multi-review): 복수 라벨러 교차 검증, 다수결

비교: 라벨링(목적변수 부여) vs 어노테이션(메타데이터 추가, 포괄적) vs 태깅(키워드 부착)

연관: 지도학습, 데이터 전처리, Active Learning, 합성 데이터, 데이터 품질

목록 ←AutoML 다음: AI 윤리 / 책임 있는 AI→