20분
"OEE"를 검색했는데 안 나온다
Day 2: Hybrid Search
"OEE"를 검색했는데 안 나온다
RAG 심화 > Day 2: Hybrid Search
학습 목표
의미 검색(Semantic Search)만으로는 부족한 이유를 이해한다 BM25 키워드 검색의 강점과 한계를 파악한다 Hybrid Search가 두 방식을 결합하는 원리를 설명할 수 있다
화요일 오전, 현장에서 전화가 왔다
"RAG 시스템에 'OEE 계산 방법' 물어봤더니 엉뚱한 답이 나와."
확인해보니 이런 상황이다:
에디터 로딩 중...
왜 이런 일이 발생할까?
의미 검색의 치명적 약점
임베딩 모델은 의미적 유사성을 잘 잡는다. 하지만 정확한 키워드 매칭에는 약하다.
에디터 로딩 중...
제조 현장은 코드, 규격, 약어 투성이다. 의미 검색만으로는 절대 부족하다.
키워드 검색(BM25)의 강점과 한계
반대로 BM25 키워드 검색을 써보면:
에디터 로딩 중...
BM25는 정확한 단어는 잘 찾지만, 동의어와 문맥을 모른다.
Hybrid Search: 둘을 합친다
| 쿼리 유형 | BM25 | Semantic | Hybrid |
|---|---|---|---|
| "OEE 계산" | O (정확 매칭) | △ (의미만) | O |
| "설비 효율성 측정" | △ (단어 부분 매칭) | O (의미 이해) | O |
| "E-4521 에러" | O (코드 매칭) | X (일반화) | O |
| "장비 고장 원인 분석" | X (동의어 부재) | O | O |
| "스핀들 오버히트" | O (직접 매칭) | O | O |
| "주축 과열" | X (동의어) | O | O |
| "ISO 14001" | O | X | O |
| "환경 관리 체계" | X | O | O |
Hybrid = 키워드 검색의 정확성 + 의미 검색의 이해력
이번 Day에서 배울 것
오늘이 끝나면:
- BM25 알고리즘의 수학적 원리를 이해한다
- Score Fusion과 RRF 두 가지 결합 방법을 구현할 수 있다
- Query Expansion과 HyDE로 검색을 더 확장할 수 있다
- 제조 도메인에 최적화된 Hybrid Search를 만든다
시작하자.