토픽 218 / 224·비교표
데이터 웨어하우스 및 분석
OLTP vs OLAP
| 항목 | OLTP | OLAP |
|---|
| 목적 | 운영(트랜잭션 처리) | 분석(의사결정 지원) |
| 데이터 | 정규화(현재 데이터) | 역정규화(이력 데이터) |
| 쿼리 | 단순, 행 단위 | 복잡, 집계/분석 |
| 응답시간 | 밀리초 | 초~분 |
| 적합 | 주문처리, 결제 | 매출분석, 리포팅 |
스타 스키마 vs 스노우플레이크 스키마
| 항목 | 스타 스키마 | 스노우플레이크 스키마 |
|---|
| 디멘션 정규화 | 비정규화 | 정규화 |
| 구조 | 단순(조인 최소) | 복잡(조인 증가) |
| 저장공간 | 중복으로 증가 | 효율적 |
| 쿼리 성능 | 빠름 | 조인으로 느릴 수 있음 |
ETL vs ELT
| 항목 | ETL | ELT |
|---|
| 변환 위치 | 변환 후 적재 | 적재 후 변환 |
| 처리 엔진 | 외부 ETL 도구 | 타겟 시스템(DW) |
| 적합 | 전통적 DW | 클라우드 DW |
| 대표 도구 | Informatica, DataStage | dbt, BigQuery |
데이터레이크 vs DW
| 항목 | 데이터 레이크 | DW(데이터 웨어하우스) |
|---|
| 데이터 형태 | 원천(Raw) 데이터 | 가공된 데이터 |
| 스키마 | Schema-on-Read | Schema-on-Write |
| 용도 | 빅데이터 분석, ML | BI, 리포팅 |
| 저장 기술 | HDFS, S3, Delta Lake | RDBMS, 컬럼 저장소 |
DW vs 데이터마트
| 항목 | DW | 데이터마트 |
|---|
| 범위 | 전사 통합 | 부서/주제별 |
| 규모 | 대규모 | 소규모 |
| 구축 | 장기, 고비용 | 단기, 저비용 |
SCD Type 1 vs Type 2 vs Type 3
| 항목 | Type 1(덮어쓰기) | Type 2(이력 보존) | Type 3(이전값 보관) |
|---|
| 변경 처리 | 최신값 덮어쓰기 | 새 행 추가(이력) | 이전값 컬럼 추가 |
| 이력 | 미보존 | 전체 이력 보존 | 직전 값만 |
| 저장공간 | 최소 | 증가 | 중간 |
MOLAP vs ROLAP vs HOLAP
| 항목 | MOLAP | ROLAP | HOLAP |
|---|
| 저장 | 메모리(다차원 배열) | RDBMS(SQL) | 혼합 |
| 성능 | 매우 빠름 | SQL 의존 | 중간 |
| 확장성 | 제한적 | 높음 | 중간 |
CDC vs ETL
| 항목 | CDC | ETL |
|---|
| 처리 방식 | 실시간(변경분만) | 배치(전체/주기적) |
| 부하 | 적음 | 높음(전체 추출) |
| 지연 | 실시간 | 주기적 지연 |
| 대표 도구 | Debezium, GoldenGate | Informatica, Talend |