토픽 224 / 224·비교표
데이터 아키텍처 신기술
데이터 웨어하우스 vs 데이터 레이크 vs Data Fabric vs Data Mesh
| 구분 | 데이터 웨어하우스 | 데이터 레이크 | Data Fabric | Data Mesh |
|---|
| 통합 방식 | ETL 중앙 저장 | 원시 데이터 저장 | 메타데이터 기반 가상 통합 | 도메인별 분산 관리 |
| 거버넌스 | 중앙 집중 | 느슨 | 자동화(AI/ML) | 연합(Federated) |
| 유연성 | 낮음 | 중간 | 높음 | 높음 |
데이터 카탈로그 vs Data Contract vs 데이터 거버넌스
| 구분 | 데이터 카탈로그 | Data Contract | 데이터 거버넌스 |
|---|
| **목적** | 데이터 탐색·발견 | 품질·스키마 보장 | 정책·표준 관리 |
| **범위** | 메타데이터 관리 | 생산자-소비자 계약 | 조직 전체 정책 |
| **초점** | 무엇이 있는가 | 어떻게 제공할 것인가 | 누가 어떤 권한으로 |
| **자동화** | 검색·분류 | 스키마·품질 검증 | 정책 준수 감사 |
데이터셋 vs 데이터 서비스 vs Data Product
| 구분 | 데이터셋 | 데이터 서비스 | Data Product |
|---|
| 자율성 | 없음(파일) | 낮음(API만) | 높음(팀 소유) |
| 품질 보장 | 없음 | 제한적 | SLA+거버넌스 포함 |
| 검색성 | 수동 | 카탈로그 | 자기 기술적(Self-describing) |
수동 메타데이터 vs 능동 메타데이터
| 구분 | 수동 메타데이터 | 능동 메타데이터 |
|---|
| 수집 방식 | 사람이 문서화 | 자동 크롤링/수집 |
| 활용 | 검색/참조 | 자동 액션(알림/정책) |
| 자동화 수준 | 낮음 | 높음(ML 기반) |
Apache Iceberg vs Delta Lake vs Apache Hudi
| 구분 | Apache Iceberg | Delta Lake | Apache Hudi |
|---|
| **개발사** | Netflix(→Apache) | Databricks | Uber(→Apache) |
| **강점** | 파티션 진화, 엔진 독립 | Spark 통합, 최적화 | CDC/증분 처리, 근실시간 |
| **생태계** | Spark/Flink/Trino/Presto | Spark 중심(확장 중) | Spark/Flink |
| **메타데이터** | 매니페스트 파일 기반 | 트랜잭션 로그(_delta_log) | 타임라인 기반 |
| **타임트래블** | 스냅샷 ID/타임스탬프 | 버전/타임스탬프 | 인스턴트 타임 |
전통 RDBMS vs 벡터 DB vs AI 네이티브 DBMS
| 구분 | 전통 RDBMS | 벡터 DB | AI 네이티브 DBMS |
|---|
| **검색 방식** | 정확 매칭(SQL) | 유사도 검색(ANN) | SQL + 유사도 + 자연어 통합 |
| **AI 기능** | 외부 연동 필요 | 벡터 검색 특화 | 벡터/NL2SQL/자동튜닝 내장 |
| **최적화** | DBA 수동 튜닝 | 벡터 인덱스 수동 | AI 자동 최적화 |
| **데이터 타입** | 정형 데이터 | 벡터(임베딩) | 정형 + 비정형 + 벡터 통합 |
수동 DBA 운영 vs 자동 튜닝 DB vs 완전 자율운영 DB
| 구분 | 수동 DBA 운영 | 자동 튜닝 DB | 완전 자율운영 DB |
|---|
| **인덱스 관리** | DBA 수동 생성/삭제 | 추천 후 승인 | 자동 생성/삭제/검증 |
| **성능 튜닝** | 수동 분석/조치 | SQL 튜닝 어드바이저 | AI 기반 자동 튜닝 |
| **패치/보안** | 다운타임 패치 | 반자동 패치 | 무중단 자동 패치 |
| **스케일링** | 수동 증설 | 임계치 기반 알림 | 예측 기반 자동 스케일링 |