20

RAGAS 평가 실전: 제조 RAG 벤치마크 설계

Day 3: RAGAS 평가

학습 목표

제조 도메인에 적합한 RAG 평가 데이터셋을 설계할 수 있다 RAGAS 메트릭 해석 기준을 실무에 맞게 설정한다 지속적 평가 파이프라인을 구성하는 방법을 안다

제조 RAG 벤치마크 설계

평가 데이터셋 구성

에디터 로딩 중...

제조 특화 임계값

에디터 로딩 중...

CI/CD 평가 파이프라인

에디터 로딩 중...

평가 결과 대시보드

에디터 로딩 중...

핵심: 평가는 배포 시에만 하는 것이 아니라, 문서 업데이트마다 자동 실행되어야 한다.

핵심 포인트
  • 제조 RAG 평가는 유형별(고장진단/안전/절차) 50개 이상 질문으로 구성한다
  • 안전 관련 Faithfulness 임계값은 일반 메트릭보다 엄격하게 0.95 이상으로 설정
  • 문서 업데이트 시마다 자동 회귀 평가로 품질 저하를 즉시 감지한다