"Loss가 낮다고 좋은 모델은 아니다" - 제대로 평가하는 법 | QLoRA 파인튜닝

"Loss가 0.3인데 왜 이상한 답변을?"

김대리: "학습 완료! Loss가 0.3으로 엄청 낮아요!"

박선배: "좋아, 그럼 이걸 물어봐."

학습 파이프라인

Q: 유압유 교환 주기는?
A: 유압유는 3,000시간 또는 12개월마다 교환합니다.
   교환 시 ISO VG 46 등급을 사용하며...
   (OK! 정확함)

Q: 고압 배관 누유 발견 시 조치는?
A: 누유 발견 시 즉시 배관을 분리하여
   육안 확인 후 조치합니다.
   (위험! 고압 배관을 함부로 분리하면 안 됨!)

박선배: "봐, Loss가 낮아도 안전 관련 답변이 위험할 수 있어. 제조 AI는 틀리면 사람이 다쳐. 제대로 평가해야 해."

왜 Loss만으로 부족한가?

지표	측정 대상	한계
Loss	토큰 예측 정확도	의미적 정확성 반영 안 됨
BLEU	n-gram 일치율	다른 표현으로 정확한 답변 낮게 평가
사람 평가	실제 품질	비용이 비쌈, 주관적

오늘의 여정

시간	주제	핵심
1교시	평가 프레임워크	정량 + 정성 평가 방법
2교시	자동 평가 코드	BLEU, ROUGE, 제조 특화 메트릭
3교시	모델 병합 & 배포	LoRA 병합, GGUF 변환
4교시	로컬 배포	Ollama, llama.cpp 활용
5교시	실습	평가 리포트 + 배포

QLoRA로 학습한 제조 설비 진단 모델의 Train Loss가 0.8로 낮게 나왔는데, 실제 현장 엔지니어 테스트에서 형편없는 평가를 받는 시나리오를 설명해줘. (1) Loss가 낮아도 실제 성능이 낮을 수 있는 이유 3가지(예: 학습-테스트 분포 차이, 과적합, 평가 기준 불일치), (2) 이 사례에서 엔지니어가 모델에 물었을 법한 질문 3개와 각각 예상되는 나쁜 답변 예시, (3) 이를 방지하기 위한 사전 평가 설계 방법을 설명해줘.