토픽 191 / 201·데이터 아키텍처 신기술
데이터 레이크하우스 (Data Lakehouse)
데이터 레이크하우스 (Data Lakehouse)
데이터 레이크의 저비용·유연성과 데이터 웨어하우스의 성능·ACID 트랜잭션을 결합한 통합 데이터 플랫폼 아키텍처
특징: 단일 플랫폼(↑), ACID 트랜잭션, 스키마 강제, BI+ML 통합, 오픈 포맷
구성요소: 오브젝트 스토리지, 메타데이터 레이어, 쿼리 엔진, 카탈로그, 거버넌스
기술요소
- •Delta Lake(Databricks, ACID on Spark)
- •Apache Iceberg(Netflix, 테이블 포맷)
- •Apache Hudi(Uber, 증분 처리)
- •오픈 테이블 포맷(Parquet + 메타데이터)
- •타임트래블(스냅샷 기반 이력 조회)
적용사례: Databricks Lakehouse, Snowflake, AWS Lake Formation, 통합 분석/ML 파이프라인
비교: 레이크하우스(통합/ACID/오픈) vs 데이터레이크(비정형/유연/거버넌스↓) vs 웨어하우스(정형/성능/고비용)
연관: 데이터 레이크, 데이터 웨어하우스, ETL/ELT, 빅데이터