토픽 181 / 201·데이터 마이닝 및 분석
데이터 마이닝 방법론 (SEMMA, KDD, CRISP-DM)
데이터 마이닝 방법론 (SEMMA, KDD, CRISP-DM)
대용량 데이터에서 패턴, 규칙, 지식을 체계적으로 추출하기 위한 표준 프로세스
KDD (Knowledge Discovery in Databases)
- •학술적 프로세스, Fayyad(1996)
- •선택(Selection) → 전처리(Preprocessing) → 변환(Transformation) → 데이터마이닝(Mining) → 해석/평가(Interpretation)
SEMMA (SAS Institute)
- •Sample(표본추출) → Explore(탐색) → Modify(변환) → Model(모델링) → Assess(평가)
- •SAS Enterprise Miner 기반, 통계적 접근
CRISP-DM (Cross Industry Standard Process for DM)
- •비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 배포
- •산업 표준, 반복 가능, 가장 널리 사용
비교: KDD(학술적/5단계) vs SEMMA(SAS/통계중심) vs CRISP-DM(산업표준/6단계/반복적)
연관: 빅데이터, 머신러닝, 데이터 분석, 비즈니스 인텔리전스