45분
RAGAS 4대 메트릭 완전 정복
Day 3: RAGAS 평가
RAGAS 4대 메트릭 완전 정복
RAG 심화 > Day 3: RAGAS 평가
학습 목표
각 메트릭의 측정 방법론을 수학적으로 이해한다 메트릭 간의 관계와 트레이드오프를 파악한다 제조 도메인에서 각 메트릭의 의미를 설명할 수 있다 목표 점수를 설정하고 해석할 수 있다
RAGAS 4대 메트릭 상세 분석
1. Faithfulness (충실도) - 가장 중요!
정의: 답변의 모든 주장이 제공된 컨텍스트에 의해 뒷받침되는가?
측정 방법:
에디터 로딩 중...
제조 현장에서의 의미:
에디터 로딩 중...
2. Answer Relevancy (답변 관련성)
정의: 답변이 질문과 얼마나 관련있는가?
측정 방법:
에디터 로딩 중...
낮은 점수 예시:
에디터 로딩 중...
3. Context Precision (컨텍스트 정밀도)
정의: 검색된 컨텍스트 중 실제로 관련있는 문서의 비율
측정 방법:
에디터 로딩 중...
의미:
- 0.60 이상이면 검색 품질 양호
- 0.80 이상이면 우수
- 0.40 이하면 검색 개선 필요 (청킹, 임베딩 모델 변경)
4. Context Recall (컨텍스트 재현율)
정의: 정답에 필요한 정보가 검색된 컨텍스트에 얼마나 포함되어 있는가?
측정 방법 (Ground Truth 필요):
에디터 로딩 중...
메트릭 간 관계
에디터 로딩 중...
해석: Precision이 높아도 Recall이 낮으면 정보가 불완전하고, Recall이 높아도 Faithfulness가 낮으면 할루시네이션이 섞이고, Faithfulness가 높아도 Relevancy가 낮으면 동문서답이다.
4개 모두 높아야 좋은 RAG다.
제조 현장 목표 점수
| 메트릭 | 일반 기준 | 제조 기준 | 안전 관련 |
|---|---|---|---|
| Faithfulness | 0.80 | 0.85 | 0.95 |
| Answer Relevancy | 0.80 | 0.85 | 0.85 |
| Context Precision | 0.70 | 0.80 | 0.80 |
| Context Recall | 0.65 | 0.75 | 0.85 |