토픽 201 / 201·병행제어 문제점
Lambda vs Kappa 아키텍처 (빅데이터 처리)
Lambda vs Kappa 아키텍처 (빅데이터 처리)
대용량 데이터 처리를 위한 아키텍처 패턴으로, Lambda는 배치+실시간 이중 레이어, Kappa는 스트리밍 단일 레이어로 파이프라인 구성
특징: 대용량 확장, 내결함성, 실시간+배치 분석
- •Batch Layer: 전체 데이터셋 주기적 배치 처리 (Hadoop, Spark)
- •Speed Layer: 실시간 스트림 처리, 배치 결과 보완 (Kafka, Flink)
- •Serving Layer: 배치+실시간 결과 병합하여 쿼리 제공
- •장점: 내결함성, 재처리 가능 / 단점: 이중 코드베이스, 동기화 어려움
- •단일 스트리밍 레이어: 모든 데이터를 스트림으로 처리, Kafka 장기 저장소
- •장점: 단순 구조, 단일 코드 / 단점: 복잡한 배치 로직 어려움, 재처리 비용
선택 기준: 복잡한 배치 → Lambda, 이벤트 중심/단순 → Kappa
기술 스택: Lambda(Hadoop, Spark, Kafka, Druid) / Kappa(Kafka, Flink, ksqlDB)
적용사례: LinkedIn(Lambda), Uber, Netflix, 로그 분석, IoT
비교: Lambda(이중 레이어/정확/복잡) vs Kappa(단일 스트림/단순) vs 전통 ETL(배치만)
연관: 빅데이터, 스트림 처리, Kafka, Spark, Flink, 데이터 파이프라인