Learning
토픽 185 / 201·데이터 마이닝 및 분석

Apache 빅데이터 프레임워크 심화

Apache 빅데이터 프레임워크 심화

Apache 재단에서 제공하는 대용량 데이터의 분산 수집, 저장, 처리, 분석을 위한 오픈소스 프레임워크 생태계

특징: 오픈소스, 수평 확장, 배치/스트림 처리, Hadoop 생태계 연동

주요 프레임워크

  • Apache Spark: 인메모리 분산 처리, MapReduce 대비 100배 빠름, 배치+스트리밍 통합
  • Apache Storm: 실시간 스트림 처리, Spout->Bolt 토폴로지, At-least-once
  • Apache Flink: 스트림 네이티브 엔진, 배치도 스트림으로 처리, Exactly-once
  • Apache NiFi: 데이터 흐름 자동화/관리, 웹 UI 기반 시각적 설계, Provenance 추적

비교

CKAN (Comprehensive Knowledge Archive Network): 오픈 데이터 포털 플랫폼, 공공데이터 관리/공유

연관: Hadoop, MapReduce, HDFS, 빅데이터, 데이터 레이크