20

"잘 되는 것 같은데..." 는 평가가 아니다

Day 3: RAGAS 평가

학습 목표

RAG 시스템 평가의 필요성을 이해한다 정성적 평가의 한계를 파악한다 RAGAS 프레임워크가 해결하는 문제를 설명할 수 있다

수요일 오전, 시연 준비 중

"내일 임원 앞에서 RAG 시스템 데모해. 잘 되지?"

당신이 만든 제조 RAG 시스템을 테스트한다.

에디터 로딩 중...

세 질문 중 정답은 하나뿐이다. 하지만 세 답변 모두 그럴듯해 보인다.


"잘 되는 것 같은데"의 함정

이 시스템을 시연하면 무슨 일이 생길까?

  1. 데모에서 준비한 질문에는 잘 답한다 (선별 편향)
  2. 임원이 즉석 질문을 던진다
  3. 시스템이 자신 있게 틀린 답을 한다 (할루시네이션)
  4. 임원: "이거 쓸 수 있어?"
  5. 신뢰를 잃는다

제조 현장에서 틀린 정보의 결과:

  • 잘못된 공차 -> 불량 발생 -> 수억원 손실
  • 잘못된 안전 정보 -> 사고 발생 -> 인명 피해
  • 잘못된 유지보수 절차 -> 장비 파손

"잘 되는 것 같은데"가 아니라, 숫자로 증명해야 한다.


RAGAS: RAG를 숫자로 평가한다

RAGAS (RAG Assessment)는 RAG 시스템을 자동으로, 정량적으로 평가하는 프레임워크다.

핵심: LLM을 이용해서 RAG의 품질을 측정한다. 사람이 일일이 확인할 필요 없다.

에디터 로딩 중...

RAGAS가 특별한 이유:

전통적 평가RAGAS
정답(Ground Truth) 필수정답 없이도 평가 가능
사람이 직접 채점LLM이 자동 채점
단일 메트릭 (맞다/틀리다)다차원 품질 측정 (4가지)
확장 어려움 (수백 건 = 수백 시간)자동화 (수백 건 = 수십 분)

RAGAS 4대 메트릭 한눈에 보기

메트릭측정 대상질문제조 중요도
Faithfulness답변 → 컨텍스트"답변이 컨텍스트에 충실한가?"★★★★★
Answer Relevancy답변 → 질문"답변이 질문에 관련있는가?"★★★★☆
Context Precision컨텍스트 → 질문"검색된 문서가 관련있는가?"★★★★☆
Context Recall컨텍스트 → 정답"정답 정보가 검색되었는가?"★★★☆☆

제조 현장에서 가장 중요한 것: Faithfulness (충실도)

왜? 답변이 문서에 없는 정보를 지어내면(할루시네이션), 그 정보로 작업하는 현장 엔지니어가 위험해진다.


이번 Day에서 배울 것

오늘이 끝나면:

  • RAGAS 4대 메트릭의 측정 원리를 이해한다
  • 평가 데이터셋을 구축할 수 있다
  • RAGAS로 RAG 시스템을 자동 평가할 수 있다
  • 제조 특화 메트릭(안전 점수, 수치 정확도)을 추가할 수 있다
  • 평가 결과 기반으로 시스템을 개선할 수 있다

시작하자.