Learning
토픽 181 / 201·데이터 마이닝 및 분석

데이터 마이닝 방법론 (SEMMA, KDD, CRISP-DM)

데이터 마이닝 방법론 (SEMMA, KDD, CRISP-DM)

대용량 데이터에서 패턴, 규칙, 지식을 체계적으로 추출하기 위한 표준 프로세스

KDD (Knowledge Discovery in Databases)

  • 학술적 프로세스, Fayyad(1996)
  • 선택(Selection) → 전처리(Preprocessing) → 변환(Transformation) → 데이터마이닝(Mining) → 해석/평가(Interpretation)

SEMMA (SAS Institute)

  • Sample(표본추출) → Explore(탐색) → Modify(변환) → Model(모델링) → Assess(평가)
  • SAS Enterprise Miner 기반, 통계적 접근

CRISP-DM (Cross Industry Standard Process for DM)

  • 비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 배포
  • 산업 표준, 반복 가능, 가장 널리 사용

비교: KDD(학술적/5단계) vs SEMMA(SAS/통계중심) vs CRISP-DM(산업표준/6단계/반복적)

연관: 빅데이터, 머신러닝, 데이터 분석, 비즈니스 인텔리전스