35

제조 sLLM 평가 프레임워크: 5가지 평가 축

평가 & 배포

학습 목표

정량적/정성적 평가 방법을 구분하고 적용할 수 있다 제조 도메인 특화 평가 기준을 설정할 수 있다 A/B 비교 평가 방법을 이해한다

제조 sLLM 평가 프레임워크

5가지 평가 축

에디터 로딩 중...

평가 방법 1: 자동 평가 (정량적)

에디터 로딩 중...

평가 방법 2: A/B 비교 평가

에디터 로딩 중...

평가 데이터셋 구성

에디터 로딩 중...
핵심 포인트
  • 5가지 평가 축: 정확성, 구체성, 안전성, 형식성, 유용성
  • 자동 평가: BLEU/ROUGE + 키워드 매칭 + LLM-as-Judge
  • A/B 비교: 기본 vs 파인튜닝 승률 70%+ 목표
  • 평가 데이터: 학습 미사용 50-100건 (Ground Truth 포함)