토픽 220 / 224·비교표
빅데이터 및 스트림 처리
Hadoop vs Spark
| 항목 | Hadoop MapReduce | Spark |
|---|
| 처리 방식 | 디스크 기반 배치 | 인메모리 기반 |
| 속도 | 느림 | 10~100배 빠름 |
| 적합 | 대용량 배치 | ETL, ML, 실시간 분석 |
Hive vs HBase
| 항목 | Hive | HBase |
|---|
| 유형 | SQL 엔진 | NoSQL DB |
| 처리 방식 | 배치(높은 지연) | 실시간(낮은 지연) |
| 데이터 모델 | 테이블/파티션 | Column-Family |
| 적합 | OLAP, 대규모 분석 | OLTP, 실시간 서빙 |
스트림 처리 vs 배치 처리
| 항목 | 스트림 처리 | 배치 처리 |
|---|
| 처리 시점 | 실시간(연속) | 주기적(일괄) |
| 지연 | 저지연(밀리초~초) | 고지연(분~시간) |
| 도구 | Kafka Streams, Flink | Hadoop, Spark |
| 적합 | 모니터링, 이상 탐지 | 집계, 리포트 |
시계열DB vs RDBMS
| 항목 | 시계열 DB | RDBMS |
|---|
| 최적화 | 시간 기반 인덱싱/집계 | 범용 |
| 적합 | IoT, 모니터링, 금융 시세 | 트랜잭션, 범용 |
| 대표 | InfluxDB, TimescaleDB | Oracle, PostgreSQL |
인메모리 DB vs 디스크 기반 DB
| 항목 | 인메모리 DB | 디스크 기반 DB |
|---|
| 저장 매체 | 메모리 | 디스크 |
| 속도 | 매우 빠름 | 상대적 느림 |
| 데이터 유지 | 휘발성 위험 | 영구 저장 |
| 비용 | 높음 | 상대적 저렴 |
캐싱 패턴: Cache-Aside vs Read-Through vs Write-Through vs Write-Behind
| 항목 | Cache-Aside | Read-Through | Write-Through | Write-Behind |
|---|
| 읽기 주체 | 애플리케이션 | 캐시 라이브러리 | - | - |
| 쓰기 주체 | 애플리케이션 | - | 캐시+DB 동기 | 캐시→DB 비동기 |
| 일관성 | 최종 일관성 | 최종 일관성 | 강한 일관성 | 약한 일관성 |
| 쓰기 성능 | 보통 | 보통 | 느림 | 빠름 |
| 유실 위험 | 낮음 | 낮음 | 낮음 | 있음(장애 시) |
Column Store vs Row Store
| 항목 | Column Store | Row Store |
|---|
| 저장 방식 | 열 단위 연속 | 행 단위 연속 |
| 압축률 | 높음(10~20배) | 낮음 |
| 적합 | OLAP, 집계/스캔 | OLTP, 단일 행 조회 |
| INSERT/UPDATE | 느림 | 빠름 |
| 대표 | ClickHouse, Redshift | MySQL, PostgreSQL |
Cache-Aside vs Read-Through vs Write-Through vs Write-Behind
| 구분 | Cache-Aside | Read-Through | Write-Through | Write-Behind |
|---|
| 읽기 주체 | 애플리케이션 | 캐시 라이브러리 | - | - |
| 쓰기 주체 | 애플리케이션 | - | 캐시 + DB 동기 | 캐시 → DB 비동기 |
| 일관성 | 최종 일관성 | 최종 일관성 | 강한 일관성 | 약한 일관성 |
| 쓰기 성능 | 보통 | 보통 | 느림 | 빠름 |
| 유실 위험 | 낮음 | 낮음 | 낮음 | 있음 (장애 시) |