25

엣지 배포: ONNX, TensorRT 변환 개요

Day 5: 실전 프로젝트 — 불량 판별 검사 시스템

학습 목표

모델을 엣지 디바이스에 배포하는 전체 흐름을 이해한다 ONNX, TensorRT 형식의 장점과 변환 방법을 파악한다 엣지 배포 시 고려사항(속도, 메모리, 정확도)을 이해한다

엣지 배포: 모델을 생산 라인에 올리기

학습은 GPU 서버에서 했지만, 실제 검사는 생산 라인 옆 소형 PC에서 해야 한다. 이를 위해 모델을 최적화하여 엣지 디바이스에 배포한다.


배포 파이프라인

에디터 로딩 중...

ONNX (Open Neural Network Exchange)

에디터 로딩 중...

TensorRT (NVIDIA 최적화)

에디터 로딩 중...

엣지 디바이스 선택

디바이스GPU가격추론 속도용도
NVIDIA Jetson Orin Nano1024 CUDA$20030 FPS비전 검사 추천
NVIDIA Jetson AGX Orin2048 CUDA$1,000100 FPS고성능
Intel NUC + OpenVINO내장 GPU$30015 FPSCPU 기반
Raspberry Pi 5없음$802 FPS프로토타입
산업용 PC + RTX 4060RTX 4060$1,500150 FPS프로덕션

제조 검사 추천: NVIDIA Jetson Orin Nano ($200, 30 FPS)


양자화: 정확도와 속도의 트레이드오프

에디터 로딩 중...
핵심 포인트
  • PyTorch → ONNX → TensorRT/OpenVINO 변환이 표준 배포 파이프라인
  • YOLOv8은 model.export()로 ONNX/TensorRT 한 줄 변환
  • TensorRT FP16으로 정확도 유지하면서 추론 속도 2~4배 향상
  • NVIDIA Jetson Orin Nano가 제조 비전 검사에 가성비 최고