토픽 192 / 201·데이터 아키텍처 신기술
Apache Iceberg / Delta Lake (레이크하우스 테이블 포맷)
Apache Iceberg / Delta Lake (레이크하우스 테이블 포맷)
데이터 레이크 위에 ACID 트랜잭션과 스키마 관리를 제공하는 오픈 테이블 포맷으로, 대규모 분석 워크로드에서 데이터 신뢰성과 성능을 보장
특징: ACID 트랜잭션(동시 읽기/쓰기 안전), 스키마 진화(컬럼 추가/삭제/변경), 타임 트래블(스냅샷 기반 이력 조회), 파티션 진화(무중단 파티션 변경), 메타데이터 관리(파일 수준 통계)
핵심 기술
- •스냅샷 격리: 각 커밋이 불변 스냅샷 생성, 읽기-쓰기 충돌 없음
- •메타데이터 레이어: 매니페스트 파일로 데이터 파일 추적, 쿼리 계획 최적화
- •오픈 포맷: Parquet/ORC 기반, 특정 엔진 비종속
- •파티션 진화(Iceberg): 테이블 재작성 없이 파티션 전략 변경
비교
적용사례: 대규모 분석 파이프라인(PB급 테이블), CDC 기반 실시간 레이크하우스, ML 피처 스토어, 규제 준수(데이터 이력 감사)
연관: 레이크하우스, 데이터 레이크, Spark, Parquet, CDC, ETL/ELT