토픽 93 / 172·MLOps와 모델 운영

모델 배포 / 서빙

학습된 ML 모델을 프로덕션 환경에 배포하여 실시간 또는 배치로 예측 서비스를 제공하는 과정

특징: 추론 최적화, 확장성 확보, 버전 관리, 모니터링 필수

방법: REST API(Flask·FastAPI: HTTP기반 요청응답), gRPC(고성능 바이너리 프로토콜), 배치추론(대량 일괄처리), 스트리밍(실시간 데이터)

도구: TensorFlow Serving(TF전용·gRPC), TorchServe(PyTorch전용), ONNX Runtime(다중프레임워크), Triton Inference Server(NVIDIA·GPU최적화), KServe(K8s 네이티브)

고려사항: 지연시간, 처리량, 확장성, 모델버전관리, A/B테스트

적용사례: 추천API, 이미지분류서비스, 실시간사기탐지

비교: 실시간서빙(저지연·소량) vs 배치서빙(고처리량·지연허용) vs 엣지서빙(디바이스·오프라인)

연관: MLOps, REST API, TensorFlow Serving, Docker, Kubernetes