25

KG Q&A 시스템 평가: 측정 가능한 품질 지표

KG 기반 Q&A

학습 목표

Retrieval과 Generation을 분리해서 평가한다 Precision, Recall, Hit Rate, MRR 등 지표를 이해한다 Golden Test Set을 구축하여 회귀 테스트를 자동화한다

"우리 KG Q&A가 좋아진 건가 나빠진 건가?"

LLM 프롬프트만 살짝 바꿔도 답변이 달라진다. 측정 없는 개선은 운에 맡기는 것.


평가의 두 축

에디터 로딩 중...

Retrieval 평가 지표

지표정의제조 도메인 적용
Precision@KTop-K 결과 중 정답 비율"E-201 원인 5개 중 진짜 원인 몇 개?"
Recall@K전체 정답 중 Top-K에 포함된 비율"실제 원인 3개 중 몇 개를 잡았나?"
Hit Rate정답이 Top-K에 1개라도 있으면 1"베어링 마모가 결과에 있나?"
MRR평균 역순위 (정답 첫 등장 순위의 역수)"베어링 마모가 1순위에 있나?"
에디터 로딩 중...

Generation 평가 지표

지표측정 방법비고
Faithfulness답변이 KG 사실에 기반하는가?LLM-as-a-judge
Answer Relevance질문과 답변이 일치하는가?임베딩 유사도
Completeness필수 정보 모두 포함했나?체크리스트
Tone/Style제조 현장 톤에 맞는가?사람 평가
에디터 로딩 중...

Golden Test Set 구축

에디터 로딩 중...

최소 50개의 골든 테스트를 만들고 CI에 자동 실행. 프롬프트나 모델 변경 시 즉시 회귀 확인 가능.


자동 평가 파이프라인

에디터 로딩 중...

운영 체크리스트

  • 골든 테스트 셋 ≥ 50개 보유
  • CI/CD에 자동 평가 통합
  • 프로덕션 로그에서 사용자 피드백 수집 (좋아요/싫어요)
  • 주간 평가 리포트 (정확도 추이)
  • 임계값 미달 시 자동 알림
  • LLM 모델 버전 변경 시 회귀 테스트 필수

측정하지 않으면 개선도 없다. 평가 인프라가 제조 KG Q&A의 진짜 차별화 포인트다.

핵심 포인트
  • Retrieval과 Generation은 분리해서 평가해야 문제 진단이 가능
  • Precision@K, MRR로 Retrieval 품질을 정량화
  • LLM-as-a-judge + 키워드 커버리지로 Generation을 자동 평가
  • Golden Test Set 50+개를 CI에 통합하여 회귀 방지