25분
RAGAS 평가, 이렇게 하면 망한다
Day 3: RAGAS 평가
RAGAS 평가, 이렇게 하면 망한다
RAG 심화 > Day 3: RAGAS 평가
학습 목표
RAG 평가 시 자주 발생하는 실수를 파악한다 각 실수에 대한 해결책을 설명할 수 있다
RAGAS 평가, 이렇게 하면 망한다
실수 1: 평가 데이터가 너무 적다
에디터 로딩 중...
해결:
- 최소 30개 이상의 평가 질문
- 다양한 유형 포함 (일반, 안전, 규격, 고장 진단)
- 난이도 분포 (쉬움 30%, 보통 50%, 어려움 20%)
실수 2: 평가 기준이 모호하다
에디터 로딩 중...
해결: 메트릭별 임계값 사전 정의
에디터 로딩 중...
실수 3: Ground Truth의 품질이 낮다
에디터 로딩 중...
해결:
- Ground Truth는 도메인 전문가가 작성
- 구체적인 수치, 규격, 절차 포함
- 안전 관련 주의사항 반드시 포함
- 정기적으로 업데이트 (매뉴얼 개정 시)
실수 4: 낮은 점수의 원인을 분석하지 않는다
에디터 로딩 중...
해결: 낮은 점수 샘플 상세 분석
에디터 로딩 중...
실수 5: 학습/평가 데이터 오염
에디터 로딩 중...
해결:
- 평가 질문은 별도로 관리
- 이상적으로는 RAG 개발자와 평가 데이터 작성자를 분리
- 정기 평가 시 새로운 질문을 추가
평가 주기 가이드
| 시점 | 평가 범위 | 목적 |
|---|---|---|
| 개발 중 | 매 변경 시 | 회귀 방지 |
| 배포 전 | 전체 데이터셋 | Go/No-Go 판단 |
| 운영 중 | 주 1회 | 품질 모니터링 |
| 문서 업데이트 | 관련 질문 | 영향도 확인 |
체크리스트
- 평가 질문 30개 이상, 다양한 유형
- 메트릭별 임계값 사전 정의
- Ground Truth에 구체적 수치/절차 포함
- 낮은 점수 샘플 상세 분석 프로세스
- 학습/평가 데이터 분리