▶️25

[영상] LLM 파인튜닝 배포 -- QLoRA/QDoRA

평가 & 배포

학습 목표

파인튜닝 모델의 성능을 Perplexity·ROUGE·도메인 특화 벤치마크로 평가하는 방법을 설명할 수 있다 QLoRA 어댑터를 기반 모델에 merge해 단독 배포 가능한 모델을 생성하는 코드를 작성할 수 있다 GGUF·GPTQ 양자화 포맷으로 배포 모델을 경량화하는 차이점과 사용 시나리오를 설명할 수 있다 Ollama 또는 llama.cpp를 사용해 로컬 서버에 파인튜닝 모델을 배포하는 절차를 설명할 수 있다

플레이어 로딩 중...
핵심 포인트
  • Perplexity(혼란도)는 모델이 텍스트를 얼마나 자신 있게 예측하는지를 나타낸다 — 값이 낮을수록 좋으며, 제조 도메인 파인튜닝 후 30~50% 감소를 목표로 한다
  • 어댑터 merge: `model.merge_and_unload()` 한 줄로 LoRA 가중치를 기반 모델에 흡수해 추론 시 추가 오버헤드 없는 단일 모델로 만든다
  • GGUF 포맷(llama.cpp/Ollama용)은 CPU+소형 GPU 배포에 최적, GPTQ(GPU 전용)는 RTX 3090급 서버 배포에 적합하다
  • QDoRA(Quantized Weight-Decomposed LoRA)는 LoRA보다 방향(Direction)까지 학습해 rank가 낮아도 Full Fine-Tuning에 근접한 성능을 낸다