60

실습: 자동 평가 파이프라인 구축

평가 & 배포

학습 목표

BLEU/ROUGE 자동 평가 코드를 작성한다 제조 특화 평가 메트릭(안전 키워드, 수치 정확성)을 구현한다 평가 결과를 종합 리포트로 정리한다

자동 평가 파이프라인

구현 항목

  1. BLEU Score 계산
  2. ROUGE Score 계산
  3. 키워드 매칭 (안전, 기술 용어)
  4. 수치 정확성 검증
  5. 종합 리포트 생성
에디터 로딩 중...
힌트 보기
  • BLEU: n-gram precision의 기하평균 + Brevity Penalty
  • ROUGE-L: 최장 공통 부분열(LCS) 기반 F1
  • 안전 키워드: 대소문자 무시 비교 (lower)
  • 종합 점수: 안전성(0.25) > 구체성(0.30) > 나머지
정답 보기
에디터 로딩 중...