Learning
토픽 131 / 172·고급 학습 기법

모델 서빙 전략 (Model Serving Strategy)

모델 서빙 전략 (Model Serving Strategy)

학습된 ML/AI 모델을 프로덕션 환경에서 실시간 또는 배치로 추론 요청에 응답하도록 배포하고 운영하는 전략으로, 지연시간, 처리량, 비용, 확장성을 최적화

목적: 저지연 추론, 높은 처리량, 비용 효율, 확장성, 가용성 보장

특징: 추론 최적화, 확장 전략, 모델 관리, 모니터링 필수

서빙 패턴

  • Real-time Serving: 동기 API, 저지연(<100ms), REST/gRPC
  • Batch Serving: 대량 데이터 일괄 처리, 비용 효율, 스케줄링
  • Streaming Serving: 실시간 데이터 스트림, Kafka+모델
  • Edge Serving: 디바이스 추론, 저지연, 프라이버시

최적화 기법

  • Model Optimization: Quantization(INT8), Pruning, Distillation
  • Hardware Acceleration: GPU, TPU, NPU, ONNX Runtime
  • Batching: 동적 배칭, 처리량 향상
  • Caching: 결과 캐싱, 반복 요청 최적화
  • Model Ensemble: 여러 모델 조합, 정확도 향상

서빙 인프라

  • TensorFlow Serving: TF 모델 전용, gRPC/REST, 버저닝
  • TorchServe: PyTorch 모델, 멀티모델, 확장성
  • Triton Inference Server: 멀티프레임워크, 동적 배칭, GPU 최적화
  • vLLM: LLM 전용, PagedAttention, 고성능
  • BentoML: ML 서빙 프레임워크, 패키징, 배포

확장 전략: Horizontal Scaling, Auto Scaling, 멀티 리전, 로드밸런싱

장점: 프로덕션 적용, 확장성, 최적화, 관리 용이

단점: 인프라 복잡도, 비용, 버전 관리, 모니터링 부담

적용사례: 추천 시스템, 챗봇, 이미지 분류, 사기 탐지

비교: TF Serving(TF전용) vs TorchServe(PyTorch) vs Triton(멀티프레임워크)

연관: MLOps, 추론 최적화, Kubernetes, 모델 배포, 확장성