Learning
토픽 220 / 224·비교표

빅데이터 및 스트림 처리

Hadoop vs Spark

항목Hadoop MapReduceSpark
처리 방식디스크 기반 배치인메모리 기반
속도느림10~100배 빠름
적합대용량 배치ETL, ML, 실시간 분석

Hive vs HBase

항목HiveHBase
유형SQL 엔진NoSQL DB
처리 방식배치(높은 지연)실시간(낮은 지연)
데이터 모델테이블/파티션Column-Family
적합OLAP, 대규모 분석OLTP, 실시간 서빙

스트림 처리 vs 배치 처리

항목스트림 처리배치 처리
처리 시점실시간(연속)주기적(일괄)
지연저지연(밀리초~초)고지연(분~시간)
도구Kafka Streams, FlinkHadoop, Spark
적합모니터링, 이상 탐지집계, 리포트

시계열DB vs RDBMS

항목시계열 DBRDBMS
최적화시간 기반 인덱싱/집계범용
적합IoT, 모니터링, 금융 시세트랜잭션, 범용
대표InfluxDB, TimescaleDBOracle, PostgreSQL

인메모리 DB vs 디스크 기반 DB

항목인메모리 DB디스크 기반 DB
저장 매체메모리디스크
속도매우 빠름상대적 느림
데이터 유지휘발성 위험영구 저장
비용높음상대적 저렴

캐싱 패턴: Cache-Aside vs Read-Through vs Write-Through vs Write-Behind

항목Cache-AsideRead-ThroughWrite-ThroughWrite-Behind
읽기 주체애플리케이션캐시 라이브러리--
쓰기 주체애플리케이션-캐시+DB 동기캐시→DB 비동기
일관성최종 일관성최종 일관성강한 일관성약한 일관성
쓰기 성능보통보통느림빠름
유실 위험낮음낮음낮음있음(장애 시)

Column Store vs Row Store

항목Column StoreRow Store
저장 방식열 단위 연속행 단위 연속
압축률높음(10~20배)낮음
적합OLAP, 집계/스캔OLTP, 단일 행 조회
INSERT/UPDATE느림빠름
대표ClickHouse, RedshiftMySQL, PostgreSQL

Cache-Aside vs Read-Through vs Write-Through vs Write-Behind

구분Cache-AsideRead-ThroughWrite-ThroughWrite-Behind
읽기 주체애플리케이션캐시 라이브러리--
쓰기 주체애플리케이션-캐시 + DB 동기캐시 → DB 비동기
일관성최종 일관성최종 일관성강한 일관성약한 일관성
쓰기 성능보통보통느림빠름
유실 위험낮음낮음낮음있음 (장애 시)