"잘 되는 것 같은데..." 는 평가가 아니다

수요일 오전, 시연 준비 중

"내일 임원 앞에서 RAG 시스템 데모해. 잘 되지?"

당신이 만든 제조 RAG 시스템을 테스트한다.

Q: "CNC-M500 주축 베어링 교체 주기는?"
A: "CNC-M500 주축 베어링의 교체 주기는 5,000시간입니다."
-> 정답! 매뉴얼에 있는 정보.

Q: "SPN-200 오일 교체 방법은?"
A: "오일 드레인 플러그를 열고 배유 후 새 오일을 주입합니다."
-> 맞는 것 같은데... 실제 SPN-200은 자동 급유 시스템이라 수동 교체가 없다!

Q: "KOSHA 기준 프레스 안전 간격은?"
A: "프레스의 안전 간격은 800mm 이상 확보해야 합니다."
-> 매뉴얼에 "800mm"라는 숫자가 있긴 한데, 그건 다른 장비 이야기...

세 질문 중 정답은 하나뿐이다. 하지만 세 답변 모두 그럴듯해 보인다.

"잘 되는 것 같은데"의 함정

이 시스템을 시연하면 무슨 일이 생길까?

데모에서 준비한 질문에는 잘 답한다 (선별 편향)
임원이 즉석 질문을 던진다
시스템이 자신 있게 틀린 답을 한다 (할루시네이션)
임원: "이거 쓸 수 있어?"
신뢰를 잃는다

제조 현장에서 틀린 정보의 결과:

잘못된 공차 -> 불량 발생 -> 수억원 손실
잘못된 안전 정보 -> 사고 발생 -> 인명 피해
잘못된 유지보수 절차 -> 장비 파손

"잘 되는 것 같은데"가 아니라, 숫자로 증명해야 한다.

RAGAS: RAG를 숫자로 평가한다

RAGAS (RAG Assessment)는 RAG 시스템을 자동으로, 정량적으로 평가하는 프레임워크다.

핵심: LLM을 이용해서 RAG의 품질을 측정한다. 사람이 일일이 확인할 필요 없다.

[질문] ──────────────┐
                      v
[RAG 시스템] ──> [답변] ──> RAGAS 평가 ──> 점수
                      ^                    |
[검색된 컨텍스트] ─────┘                    v
                                    Faithfulness: 0.87
                                    Relevancy: 0.92
                                    Precision: 0.80
                                    Recall: 0.75

RAGAS가 특별한 이유:

전통적 평가	RAGAS
정답(Ground Truth) 필수	정답 없이도 평가 가능
사람이 직접 채점	LLM이 자동 채점
단일 메트릭 (맞다/틀리다)	다차원 품질 측정 (4가지)
확장 어려움 (수백 건 = 수백 시간)	자동화 (수백 건 = 수십 분)

RAGAS 4대 메트릭 한눈에 보기

메트릭	측정 대상	질문	제조 중요도
Faithfulness	답변 → 컨텍스트	"답변이 컨텍스트에 충실한가?"	★★★★★
Answer Relevancy	답변 → 질문	"답변이 질문에 관련있는가?"	★★★★☆
Context Precision	컨텍스트 → 질문	"검색된 문서가 관련있는가?"	★★★★☆
Context Recall	컨텍스트 → 정답	"정답 정보가 검색되었는가?"	★★★☆☆

제조 현장에서 가장 중요한 것: Faithfulness (충실도)

왜? 답변이 문서에 없는 정보를 지어내면(할루시네이션), 그 정보로 작업하는 현장 엔지니어가 위험해진다.

이번 Day에서 배울 것

오늘이 끝나면:

RAGAS 4대 메트릭의 측정 원리를 이해한다
평가 데이터셋을 구축할 수 있다
RAGAS로 RAG 시스템을 자동 평가할 수 있다
제조 특화 메트릭(안전 점수, 수치 정확도)을 추가할 수 있다
평가 결과 기반으로 시스템을 개선할 수 있다

시작하자.