Learning
토픽 201 / 201·병행제어 문제점

Lambda vs Kappa 아키텍처 (빅데이터 처리)

Lambda vs Kappa 아키텍처 (빅데이터 처리)

대용량 데이터 처리를 위한 아키텍처 패턴으로, Lambda는 배치+실시간 이중 레이어, Kappa는 스트리밍 단일 레이어로 파이프라인 구성

특징: 대용량 확장, 내결함성, 실시간+배치 분석

  • Batch Layer: 전체 데이터셋 주기적 배치 처리 (Hadoop, Spark)
  • Speed Layer: 실시간 스트림 처리, 배치 결과 보완 (Kafka, Flink)
  • Serving Layer: 배치+실시간 결과 병합하여 쿼리 제공
  • 장점: 내결함성, 재처리 가능 / 단점: 이중 코드베이스, 동기화 어려움
  • 단일 스트리밍 레이어: 모든 데이터를 스트림으로 처리, Kafka 장기 저장소
  • 장점: 단순 구조, 단일 코드 / 단점: 복잡한 배치 로직 어려움, 재처리 비용

선택 기준: 복잡한 배치 → Lambda, 이벤트 중심/단순 → Kappa

기술 스택: Lambda(Hadoop, Spark, Kafka, Druid) / Kappa(Kafka, Flink, ksqlDB)

적용사례: LinkedIn(Lambda), Uber, Netflix, 로그 분석, IoT

비교: Lambda(이중 레이어/정확/복잡) vs Kappa(단일 스트림/단순) vs 전통 ETL(배치만)

연관: 빅데이터, 스트림 처리, Kafka, Spark, Flink, 데이터 파이프라인