15분
"Loss가 낮다고 좋은 모델은 아니다" - 제대로 평가하는 법
평가 & 배포
"Loss가 낮다고 좋은 모델은 아니다" - 제대로 평가하는 법
QLoRA 파인튜닝 > 평가 & 배포
학습 목표
학습 Loss와 실제 품질의 차이를 이해한다 제조 도메인 모델 평가의 특수성을 파악한다
"Loss가 0.3인데 왜 이상한 답변을?"
김대리: "학습 완료! Loss가 0.3으로 엄청 낮아요!"
박선배: "좋아, 그럼 이걸 물어봐."
에디터 로딩 중...
박선배: "봐, Loss가 낮아도 안전 관련 답변이 위험할 수 있어. 제조 AI는 틀리면 사람이 다쳐. 제대로 평가해야 해."
왜 Loss만으로 부족한가?
| 지표 | 측정 대상 | 한계 |
|---|---|---|
| Loss | 토큰 예측 정확도 | 의미적 정확성 반영 안 됨 |
| BLEU | n-gram 일치율 | 다른 표현으로 정확한 답변 낮게 평가 |
| 사람 평가 | 실제 품질 | 비용이 비쌈, 주관적 |
오늘의 여정
| 시간 | 주제 | 핵심 |
|---|---|---|
| 1교시 | 평가 프레임워크 | 정량 + 정성 평가 방법 |
| 2교시 | 자동 평가 코드 | BLEU, ROUGE, 제조 특화 메트릭 |
| 3교시 | 모델 병합 & 배포 | LoRA 병합, GGUF 변환 |
| 4교시 | 로컬 배포 | Ollama, llama.cpp 활용 |
| 5교시 | 실습 | 평가 리포트 + 배포 |
핵심 포인트
- • Loss만으로는 모델의 실제 품질을 판단할 수 없다
- • 제조 도메인: 안전 관련 오답은 사고로 이어질 수 있다
- • 정량 평가(자동) + 정성 평가(전문가) 병행 필수