60

Phase 3: 모델 평가 & A/B 비교

제조 도메인 sLLM 구축

학습 목표

Day 4의 평가 코드로 학습된 모델을 평가한다 기본 모델 vs 파인튜닝 모델 A/B 비교를 수행한다 평가 리포트를 작성한다

Phase 3: 모델 평가

평가 순서

  1. 테스트 질문 10-20건 준비 (학습 미사용)
  2. 기본 모델 답변 수집
  3. 파인튜닝 모델 답변 수집
  4. 자동 평가 (BLEU, ROUGE, 안전성, 구체성)
  5. A/B 비교 결과 정리
  6. 종합 리포트 생성
에디터 로딩 중...
힌트 보기
  • 기본 모델 답변: 파인튜닝 전 체크포인트에서 추론
  • A/B 비교: 동일 질문에 대한 두 모델 답변을 나란히 비교
  • 안전 점수가 0.5 미만인 답변은 반드시 개선 필요
정답 보기
에디터 로딩 중...