토픽 224 / 224·비교표

데이터 아키텍처 신기술

데이터 웨어하우스 vs 데이터 레이크 vs Data Fabric vs Data Mesh

구분	데이터 웨어하우스	데이터 레이크	Data Fabric	Data Mesh
통합 방식	ETL 중앙 저장	원시 데이터 저장	메타데이터 기반 가상 통합	도메인별 분산 관리
거버넌스	중앙 집중	느슨	자동화(AI/ML)	연합(Federated)
유연성	낮음	중간	높음	높음

데이터 카탈로그 vs Data Contract vs 데이터 거버넌스

구분	데이터 카탈로그	Data Contract	데이터 거버넌스
목적	데이터 탐색·발견	품질·스키마 보장	정책·표준 관리
범위	메타데이터 관리	생산자-소비자 계약	조직 전체 정책
초점	무엇이 있는가	어떻게 제공할 것인가	누가 어떤 권한으로
자동화	검색·분류	스키마·품질 검증	정책 준수 감사

데이터셋 vs 데이터 서비스 vs Data Product

구분	데이터셋	데이터 서비스	Data Product
자율성	없음(파일)	낮음(API만)	높음(팀 소유)
품질 보장	없음	제한적	SLA+거버넌스 포함
검색성	수동	카탈로그	자기 기술적(Self-describing)

수동 메타데이터 vs 능동 메타데이터

구분	수동 메타데이터	능동 메타데이터
수집 방식	사람이 문서화	자동 크롤링/수집
활용	검색/참조	자동 액션(알림/정책)
자동화 수준	낮음	높음(ML 기반)

Apache Iceberg vs Delta Lake vs Apache Hudi

구분	Apache Iceberg	Delta Lake	Apache Hudi
개발사	Netflix(→Apache)	Databricks	Uber(→Apache)
강점	파티션 진화, 엔진 독립	Spark 통합, 최적화	CDC/증분 처리, 근실시간
생태계	Spark/Flink/Trino/Presto	Spark 중심(확장 중)	Spark/Flink
메타데이터	매니페스트 파일 기반	트랜잭션 로그(_delta_log)	타임라인 기반
타임트래블	스냅샷 ID/타임스탬프	버전/타임스탬프	인스턴트 타임

전통 RDBMS vs 벡터 DB vs AI 네이티브 DBMS

구분	전통 RDBMS	벡터 DB	AI 네이티브 DBMS
검색 방식	정확 매칭(SQL)	유사도 검색(ANN)	SQL + 유사도 + 자연어 통합
AI 기능	외부 연동 필요	벡터 검색 특화	벡터/NL2SQL/자동튜닝 내장
최적화	DBA 수동 튜닝	벡터 인덱스 수동	AI 자동 최적화
데이터 타입	정형 데이터	벡터(임베딩)	정형 + 비정형 + 벡터 통합

수동 DBA 운영 vs 자동 튜닝 DB vs 완전 자율운영 DB

구분	수동 DBA 운영	자동 튜닝 DB	완전 자율운영 DB
인덱스 관리	DBA 수동 생성/삭제	추천 후 승인	자동 생성/삭제/검증
성능 튜닝	수동 분석/조치	SQL 튜닝 어드바이저	AI 기반 자동 튜닝
패치/보안	다운타임 패치	반자동 패치	무중단 자동 패치
스케일링	수동 증설	임계치 기반 알림	예측 기반 자동 스케일링

목록 ←데이터 마이닝 및 분석 과정 완료!→