토픽 185 / 201·데이터 마이닝 및 분석
Apache 빅데이터 프레임워크 심화
Apache 빅데이터 프레임워크 심화
Apache 재단에서 제공하는 대용량 데이터의 분산 수집, 저장, 처리, 분석을 위한 오픈소스 프레임워크 생태계
특징: 오픈소스, 수평 확장, 배치/스트림 처리, Hadoop 생태계 연동
주요 프레임워크
- •Apache Spark: 인메모리 분산 처리, MapReduce 대비 100배 빠름, 배치+스트리밍 통합
- •Apache Storm: 실시간 스트림 처리, Spout->Bolt 토폴로지, At-least-once
- •Apache Flink: 스트림 네이티브 엔진, 배치도 스트림으로 처리, Exactly-once
- •Apache NiFi: 데이터 흐름 자동화/관리, 웹 UI 기반 시각적 설계, Provenance 추적
비교
CKAN (Comprehensive Knowledge Archive Network): 오픈 데이터 포털 플랫폼, 공공데이터 관리/공유
연관: Hadoop, MapReduce, HDFS, 빅데이터, 데이터 레이크