토픽 220 / 224·비교표

빅데이터 및 스트림 처리

Hadoop vs Spark

항목	Hadoop MapReduce	Spark
처리 방식	디스크 기반 배치	인메모리 기반
속도	느림	10~100배 빠름
적합	대용량 배치	ETL, ML, 실시간 분석

Hive vs HBase

항목	Hive	HBase
유형	SQL 엔진	NoSQL DB
처리 방식	배치(높은 지연)	실시간(낮은 지연)
데이터 모델	테이블/파티션	Column-Family
적합	OLAP, 대규모 분석	OLTP, 실시간 서빙

스트림 처리 vs 배치 처리

항목	스트림 처리	배치 처리
처리 시점	실시간(연속)	주기적(일괄)
지연	저지연(밀리초~초)	고지연(분~시간)
도구	Kafka Streams, Flink	Hadoop, Spark
적합	모니터링, 이상 탐지	집계, 리포트

시계열DB vs RDBMS

항목	시계열 DB	RDBMS
최적화	시간 기반 인덱싱/집계	범용
적합	IoT, 모니터링, 금융 시세	트랜잭션, 범용
대표	InfluxDB, TimescaleDB	Oracle, PostgreSQL

인메모리 DB vs 디스크 기반 DB

항목	인메모리 DB	디스크 기반 DB
저장 매체	메모리	디스크
속도	매우 빠름	상대적 느림
데이터 유지	휘발성 위험	영구 저장
비용	높음	상대적 저렴

캐싱 패턴: Cache-Aside vs Read-Through vs Write-Through vs Write-Behind

항목	Cache-Aside	Read-Through	Write-Through	Write-Behind
읽기 주체	애플리케이션	캐시 라이브러리	-	-
쓰기 주체	애플리케이션	-	캐시+DB 동기	캐시→DB 비동기
일관성	최종 일관성	최종 일관성	강한 일관성	약한 일관성
쓰기 성능	보통	보통	느림	빠름
유실 위험	낮음	낮음	낮음	있음(장애 시)

Column Store vs Row Store

항목	Column Store	Row Store
저장 방식	열 단위 연속	행 단위 연속
압축률	높음(10~20배)	낮음
적합	OLAP, 집계/스캔	OLTP, 단일 행 조회
INSERT/UPDATE	느림	빠름
대표	ClickHouse, Redshift	MySQL, PostgreSQL

Cache-Aside vs Read-Through vs Write-Through vs Write-Behind

구분	Cache-Aside	Read-Through	Write-Through	Write-Behind
읽기 주체	애플리케이션	캐시 라이브러리	-	-
쓰기 주체	애플리케이션	-	캐시 + DB 동기	캐시 → DB 비동기
일관성	최종 일관성	최종 일관성	강한 일관성	약한 일관성
쓰기 성능	보통	보통	느림	빠름
유실 위험	낮음	낮음	낮음	있음 (장애 시)

목록 ←데이터 품질 및 거버넌스 다음: 분산 트랜잭션 및 보안→