15

"Loss가 낮다고 좋은 모델은 아니다" - 제대로 평가하는 법

평가 & 배포

학습 목표

학습 Loss와 실제 품질의 차이를 이해한다 제조 도메인 모델 평가의 특수성을 파악한다

"Loss가 0.3인데 왜 이상한 답변을?"

김대리: "학습 완료! Loss가 0.3으로 엄청 낮아요!"

박선배: "좋아, 그럼 이걸 물어봐."

에디터 로딩 중...

박선배: "봐, Loss가 낮아도 안전 관련 답변이 위험할 수 있어. 제조 AI는 틀리면 사람이 다쳐. 제대로 평가해야 해."

왜 Loss만으로 부족한가?

지표측정 대상한계
Loss토큰 예측 정확도의미적 정확성 반영 안 됨
BLEUn-gram 일치율다른 표현으로 정확한 답변 낮게 평가
사람 평가실제 품질비용이 비쌈, 주관적

오늘의 여정

시간주제핵심
1교시평가 프레임워크정량 + 정성 평가 방법
2교시자동 평가 코드BLEU, ROUGE, 제조 특화 메트릭
3교시모델 병합 & 배포LoRA 병합, GGUF 변환
4교시로컬 배포Ollama, llama.cpp 활용
5교시실습평가 리포트 + 배포
핵심 포인트
  • Loss만으로는 모델의 실제 품질을 판단할 수 없다
  • 제조 도메인: 안전 관련 오답은 사고로 이어질 수 있다
  • 정량 평가(자동) + 정성 평가(전문가) 병행 필수