▶️25분
[영상] FastAPI + GCP 딥러닝 모델 배포
프론트엔드 UI 개발 (Streamlit)
[영상] FastAPI + GCP 딥러닝 모델 배포
통합 프로젝트 > 프론트엔드 UI 개발 (Streamlit)
학습 목표
FastAPI로 딥러닝 모델 추론 API를 구성하고 Dockerfile로 컨테이너화하는 전체 과정을 설명할 수 있다 GCP Cloud Run에 FastAPI 컨테이너를 배포하고 자동 스케일링 설정을 구성할 수 있다 AI 추론 API의 성능 최적화(배치 추론, 모델 워밍업, 응답 캐싱) 전략을 설명할 수 있다 배포 후 Cloud Run 로그·메트릭으로 API 성능을 모니터링하는 방법을 설명할 수 있다
플레이어 로딩 중...
핵심 포인트
- • FastAPI + Uvicorn + Gunicorn 조합이 ML 모델 서빙의 표준 스택 — lifespan 이벤트로 앱 시작 시 모델을 한 번만 로드한다
- • Dockerfile에서 모델 파일을 COPY하지 말고 GCS 또는 Hugging Face Hub에서 시작 시 다운로드하면 이미지 크기를 수 GB 줄일 수 있다
- • Cloud Run은 요청이 없을 때 인스턴스를 0으로 스케일다운해 비용을 절약하지만, 콜드 스타트(첫 요청 지연)가 발생한다 — min-instances=1로 워밍 인스턴스를 유지해 해결한다
- • GPU가 필요한 대형 모델은 Cloud Run GPU(L4) 또는 GKE로 배포한다 — 소형 양자화 모델(GGUF 4-bit)은 Cloud Run CPU로도 충분히 서빙 가능하다