25분
KG Q&A 시스템 평가: 측정 가능한 품질 지표
KG 기반 Q&A
KG Q&A 시스템 평가: 측정 가능한 품질 지표
온톨로지 & Knowledge Graph > KG 기반 Q&A
학습 목표
Retrieval과 Generation을 분리해서 평가한다 Precision, Recall, Hit Rate, MRR 등 지표를 이해한다 Golden Test Set을 구축하여 회귀 테스트를 자동화한다
"우리 KG Q&A가 좋아진 건가 나빠진 건가?"
LLM 프롬프트만 살짝 바꿔도 답변이 달라진다. 측정 없는 개선은 운에 맡기는 것.
평가의 두 축
에디터 로딩 중...
Retrieval 평가 지표
| 지표 | 정의 | 제조 도메인 적용 |
|---|---|---|
| Precision@K | Top-K 결과 중 정답 비율 | "E-201 원인 5개 중 진짜 원인 몇 개?" |
| Recall@K | 전체 정답 중 Top-K에 포함된 비율 | "실제 원인 3개 중 몇 개를 잡았나?" |
| Hit Rate | 정답이 Top-K에 1개라도 있으면 1 | "베어링 마모가 결과에 있나?" |
| MRR | 평균 역순위 (정답 첫 등장 순위의 역수) | "베어링 마모가 1순위에 있나?" |
에디터 로딩 중...
Generation 평가 지표
| 지표 | 측정 방법 | 비고 |
|---|---|---|
| Faithfulness | 답변이 KG 사실에 기반하는가? | LLM-as-a-judge |
| Answer Relevance | 질문과 답변이 일치하는가? | 임베딩 유사도 |
| Completeness | 필수 정보 모두 포함했나? | 체크리스트 |
| Tone/Style | 제조 현장 톤에 맞는가? | 사람 평가 |
에디터 로딩 중...
Golden Test Set 구축
에디터 로딩 중...
최소 50개의 골든 테스트를 만들고 CI에 자동 실행. 프롬프트나 모델 변경 시 즉시 회귀 확인 가능.
자동 평가 파이프라인
에디터 로딩 중...
운영 체크리스트
- 골든 테스트 셋 ≥ 50개 보유
- CI/CD에 자동 평가 통합
- 프로덕션 로그에서 사용자 피드백 수집 (좋아요/싫어요)
- 주간 평가 리포트 (정확도 추이)
- 임계값 미달 시 자동 알림
- LLM 모델 버전 변경 시 회귀 테스트 필수
측정하지 않으면 개선도 없다. 평가 인프라가 제조 KG Q&A의 진짜 차별화 포인트다.
핵심 포인트
- • Retrieval과 Generation은 분리해서 평가해야 문제 진단이 가능
- • Precision@K, MRR로 Retrieval 품질을 정량화
- • LLM-as-a-judge + 키워드 커버리지로 Generation을 자동 평가
- • Golden Test Set 50+개를 CI에 통합하여 회귀 방지