토픽 131 / 172·고급 학습 기법

모델 서빙 전략 (Model Serving Strategy)

학습된 ML/AI 모델을 프로덕션 환경에서 실시간 또는 배치로 추론 요청에 응답하도록 배포하고 운영하는 전략으로, 지연시간, 처리량, 비용, 확장성을 최적화

목적: 저지연 추론, 높은 처리량, 비용 효율, 확장성, 가용성 보장

특징: 추론 최적화, 확장 전략, 모델 관리, 모니터링 필수

서빙 패턴

최적화 기법

서빙 인프라

확장 전략: Horizontal Scaling, Auto Scaling, 멀티 리전, 로드밸런싱

장점: 프로덕션 적용, 확장성, 최적화, 관리 용이

단점: 인프라 복잡도, 비용, 버전 관리, 모니터링 부담

적용사례: 추천 시스템, 챗봇, 이미지 분류, 사기 탐지

비교: TF Serving(TF전용) vs TorchServe(PyTorch) vs Triton(멀티프레임워크)

연관: MLOps, 추론 최적화, Kubernetes, 모델 배포, 확장성