60분
실습: 자동 평가 파이프라인 구축
평가 & 배포
실습: 자동 평가 파이프라인 구축
QLoRA 파인튜닝 > 평가 & 배포
학습 목표
BLEU/ROUGE 자동 평가 코드를 작성한다 제조 특화 평가 메트릭(안전 키워드, 수치 정확성)을 구현한다 평가 결과를 종합 리포트로 정리한다
자동 평가 파이프라인
구현 항목
- BLEU Score 계산
- ROUGE Score 계산
- 키워드 매칭 (안전, 기술 용어)
- 수치 정확성 검증
- 종합 리포트 생성
에디터 로딩 중...
힌트 보기
- • BLEU: n-gram precision의 기하평균 + Brevity Penalty
- • ROUGE-L: 최장 공통 부분열(LCS) 기반 F1
- • 안전 키워드: 대소문자 무시 비교 (lower)
- • 종합 점수: 안전성(0.25) > 구체성(0.30) > 나머지
정답 보기
에디터 로딩 중...