60분
RAG 설정 A/B 테스트 평가기
Day 3: RAGAS 평가
RAG 설정 A/B 테스트 평가기
RAG 심화 > Day 3: RAGAS 평가
학습 목표
두 가지 RAG 설정을 비교 평가할 수 있다 통계적으로 유의미한 차이를 판단할 수 있다 최적 설정을 자동으로 선택하는 로직을 구현할 수 있다
RAG 설정 A/B 테스트
"청킹 사이즈 300 vs 500, 어떤 게 나을까?" "alpha 0.3 vs 0.5, 어떤 게 나을까?"
감으로 결정하지 말고, 데이터로 결정하자. 두 가지 설정의 RAG를 동일한 질문 세트로 평가하고 비교한다.
목표
- 두 설정의 RAG 결과를 수집
- RAGAS로 각각 평가
- 메트릭별 비교 및 통계 검정
- 최적 설정 자동 추천
에디터 로딩 중...
힌트 보기
- • 가중치는 Faithfulness를 가장 높게 설정하세요 (제조 안전)
- • 유의미한 차이의 임계값은 보통 2~5%로 설정합니다
- • 질문 수가 적으면(30개 미만) 통계적 유의성을 주장하기 어렵습니다
- • 동점일 때는 기존 설정(A)을 유지하는 것이 안전합니다
정답 보기
에디터 로딩 중...