20분
"잘 되는 것 같은데..." 는 평가가 아니다
Day 3: RAGAS 평가
"잘 되는 것 같은데..." 는 평가가 아니다
RAG 심화 > Day 3: RAGAS 평가
학습 목표
RAG 시스템 평가의 필요성을 이해한다 정성적 평가의 한계를 파악한다 RAGAS 프레임워크가 해결하는 문제를 설명할 수 있다
수요일 오전, 시연 준비 중
"내일 임원 앞에서 RAG 시스템 데모해. 잘 되지?"
당신이 만든 제조 RAG 시스템을 테스트한다.
에디터 로딩 중...
세 질문 중 정답은 하나뿐이다. 하지만 세 답변 모두 그럴듯해 보인다.
"잘 되는 것 같은데"의 함정
이 시스템을 시연하면 무슨 일이 생길까?
- 데모에서 준비한 질문에는 잘 답한다 (선별 편향)
- 임원이 즉석 질문을 던진다
- 시스템이 자신 있게 틀린 답을 한다 (할루시네이션)
- 임원: "이거 쓸 수 있어?"
- 신뢰를 잃는다
제조 현장에서 틀린 정보의 결과:
- 잘못된 공차 -> 불량 발생 -> 수억원 손실
- 잘못된 안전 정보 -> 사고 발생 -> 인명 피해
- 잘못된 유지보수 절차 -> 장비 파손
"잘 되는 것 같은데"가 아니라, 숫자로 증명해야 한다.
RAGAS: RAG를 숫자로 평가한다
RAGAS (RAG Assessment)는 RAG 시스템을 자동으로, 정량적으로 평가하는 프레임워크다.
핵심: LLM을 이용해서 RAG의 품질을 측정한다. 사람이 일일이 확인할 필요 없다.
에디터 로딩 중...
RAGAS가 특별한 이유:
| 전통적 평가 | RAGAS |
|---|---|
| 정답(Ground Truth) 필수 | 정답 없이도 평가 가능 |
| 사람이 직접 채점 | LLM이 자동 채점 |
| 단일 메트릭 (맞다/틀리다) | 다차원 품질 측정 (4가지) |
| 확장 어려움 (수백 건 = 수백 시간) | 자동화 (수백 건 = 수십 분) |
RAGAS 4대 메트릭 한눈에 보기
| 메트릭 | 측정 대상 | 질문 | 제조 중요도 |
|---|---|---|---|
| Faithfulness | 답변 → 컨텍스트 | "답변이 컨텍스트에 충실한가?" | ★★★★★ |
| Answer Relevancy | 답변 → 질문 | "답변이 질문에 관련있는가?" | ★★★★☆ |
| Context Precision | 컨텍스트 → 질문 | "검색된 문서가 관련있는가?" | ★★★★☆ |
| Context Recall | 컨텍스트 → 정답 | "정답 정보가 검색되었는가?" | ★★★☆☆ |
제조 현장에서 가장 중요한 것: Faithfulness (충실도)
왜? 답변이 문서에 없는 정보를 지어내면(할루시네이션), 그 정보로 작업하는 현장 엔지니어가 위험해진다.
이번 Day에서 배울 것
오늘이 끝나면:
- RAGAS 4대 메트릭의 측정 원리를 이해한다
- 평가 데이터셋을 구축할 수 있다
- RAGAS로 RAG 시스템을 자동 평가할 수 있다
- 제조 특화 메트릭(안전 점수, 수치 정확도)을 추가할 수 있다
- 평가 결과 기반으로 시스템을 개선할 수 있다
시작하자.