35분
제조 sLLM 평가 프레임워크: 5가지 평가 축
평가 & 배포
제조 sLLM 평가 프레임워크: 5가지 평가 축
QLoRA 파인튜닝 > 평가 & 배포
학습 목표
정량적/정성적 평가 방법을 구분하고 적용할 수 있다 제조 도메인 특화 평가 기준을 설정할 수 있다 A/B 비교 평가 방법을 이해한다
제조 sLLM 평가 프레임워크
5가지 평가 축
에디터 로딩 중...
평가 방법 1: 자동 평가 (정량적)
에디터 로딩 중...
평가 방법 2: A/B 비교 평가
에디터 로딩 중...
평가 데이터셋 구성
에디터 로딩 중...
핵심 포인트
- • 5가지 평가 축: 정확성, 구체성, 안전성, 형식성, 유용성
- • 자동 평가: BLEU/ROUGE + 키워드 매칭 + LLM-as-Judge
- • A/B 비교: 기본 vs 파인튜닝 승률 70%+ 목표
- • 평가 데이터: 학습 미사용 50-100건 (Ground Truth 포함)