25

RAGAS 평가, 이렇게 하면 망한다

Day 3: RAGAS 평가

학습 목표

RAG 평가 시 자주 발생하는 실수를 파악한다 각 실수에 대한 해결책을 설명할 수 있다

RAGAS 평가, 이렇게 하면 망한다


실수 1: 평가 데이터가 너무 적다

에디터 로딩 중...

해결:

  • 최소 30개 이상의 평가 질문
  • 다양한 유형 포함 (일반, 안전, 규격, 고장 진단)
  • 난이도 분포 (쉬움 30%, 보통 50%, 어려움 20%)

실수 2: 평가 기준이 모호하다

에디터 로딩 중...

해결: 메트릭별 임계값 사전 정의

에디터 로딩 중...

실수 3: Ground Truth의 품질이 낮다

에디터 로딩 중...

해결:

  • Ground Truth는 도메인 전문가가 작성
  • 구체적인 수치, 규격, 절차 포함
  • 안전 관련 주의사항 반드시 포함
  • 정기적으로 업데이트 (매뉴얼 개정 시)

실수 4: 낮은 점수의 원인을 분석하지 않는다

에디터 로딩 중...

해결: 낮은 점수 샘플 상세 분석

에디터 로딩 중...

실수 5: 학습/평가 데이터 오염

에디터 로딩 중...

해결:

  • 평가 질문은 별도로 관리
  • 이상적으로는 RAG 개발자와 평가 데이터 작성자를 분리
  • 정기 평가 시 새로운 질문을 추가

평가 주기 가이드

시점평가 범위목적
개발 중매 변경 시회귀 방지
배포 전전체 데이터셋Go/No-Go 판단
운영 중주 1회품질 모니터링
문서 업데이트관련 질문영향도 확인

체크리스트

  • 평가 질문 30개 이상, 다양한 유형
  • 메트릭별 임계값 사전 정의
  • Ground Truth에 구체적 수치/절차 포함
  • 낮은 점수 샘플 상세 분석 프로세스
  • 학습/평가 데이터 분리