Learning
토픽 191 / 201·데이터 아키텍처 신기술

데이터 레이크하우스 (Data Lakehouse)

데이터 레이크하우스 (Data Lakehouse)

데이터 레이크의 저비용·유연성과 데이터 웨어하우스의 성능·ACID 트랜잭션을 결합한 통합 데이터 플랫폼 아키텍처

특징: 단일 플랫폼(↑), ACID 트랜잭션, 스키마 강제, BI+ML 통합, 오픈 포맷

구성요소: 오브젝트 스토리지, 메타데이터 레이어, 쿼리 엔진, 카탈로그, 거버넌스

기술요소

  • Delta Lake(Databricks, ACID on Spark)
  • Apache Iceberg(Netflix, 테이블 포맷)
  • Apache Hudi(Uber, 증분 처리)
  • 오픈 테이블 포맷(Parquet + 메타데이터)
  • 타임트래블(스냅샷 기반 이력 조회)

적용사례: Databricks Lakehouse, Snowflake, AWS Lake Formation, 통합 분석/ML 파이프라인

비교: 레이크하우스(통합/ACID/오픈) vs 데이터레이크(비정형/유연/거버넌스↓) vs 웨어하우스(정형/성능/고비용)

연관: 데이터 레이크, 데이터 웨어하우스, ETL/ELT, 빅데이터