60분
Phase 3: 모델 평가 & A/B 비교
제조 도메인 sLLM 구축
Phase 3: 모델 평가 & A/B 비교
QLoRA 파인튜닝 > 제조 도메인 sLLM 구축
학습 목표
Day 4의 평가 코드로 학습된 모델을 평가한다 기본 모델 vs 파인튜닝 모델 A/B 비교를 수행한다 평가 리포트를 작성한다
Phase 3: 모델 평가
평가 순서
- 테스트 질문 10-20건 준비 (학습 미사용)
- 기본 모델 답변 수집
- 파인튜닝 모델 답변 수집
- 자동 평가 (BLEU, ROUGE, 안전성, 구체성)
- A/B 비교 결과 정리
- 종합 리포트 생성
에디터 로딩 중...
힌트 보기
- • 기본 모델 답변: 파인튜닝 전 체크포인트에서 추론
- • A/B 비교: 동일 질문에 대한 두 모델 답변을 나란히 비교
- • 안전 점수가 0.5 미만인 답변은 반드시 개선 필요
정답 보기
에디터 로딩 중...