20

"OEE"를 검색했는데 안 나온다

Day 2: Hybrid Search

학습 목표

의미 검색(Semantic Search)만으로는 부족한 이유를 이해한다 BM25 키워드 검색의 강점과 한계를 파악한다 Hybrid Search가 두 방식을 결합하는 원리를 설명할 수 있다

화요일 오전, 현장에서 전화가 왔다

"RAG 시스템에 'OEE 계산 방법' 물어봤더니 엉뚱한 답이 나와."

확인해보니 이런 상황이다:

에디터 로딩 중...

왜 이런 일이 발생할까?


의미 검색의 치명적 약점

임베딩 모델은 의미적 유사성을 잘 잡는다. 하지만 정확한 키워드 매칭에는 약하다.

에디터 로딩 중...

제조 현장은 코드, 규격, 약어 투성이다. 의미 검색만으로는 절대 부족하다.


키워드 검색(BM25)의 강점과 한계

반대로 BM25 키워드 검색을 써보면:

에디터 로딩 중...

BM25는 정확한 단어는 잘 찾지만, 동의어와 문맥을 모른다.


Hybrid Search: 둘을 합친다

쿼리 유형BM25SemanticHybrid
"OEE 계산"O (정확 매칭)△ (의미만)O
"설비 효율성 측정"△ (단어 부분 매칭)O (의미 이해)O
"E-4521 에러"O (코드 매칭)X (일반화)O
"장비 고장 원인 분석"X (동의어 부재)OO
"스핀들 오버히트"O (직접 매칭)OO
"주축 과열"X (동의어)OO
"ISO 14001"OXO
"환경 관리 체계"XOO

Hybrid = 키워드 검색의 정확성 + 의미 검색의 이해력


이번 Day에서 배울 것

오늘이 끝나면:

  • BM25 알고리즘의 수학적 원리를 이해한다
  • Score Fusion과 RRF 두 가지 결합 방법을 구현할 수 있다
  • Query Expansion과 HyDE로 검색을 더 확장할 수 있다
  • 제조 도메인에 최적화된 Hybrid Search를 만든다

시작하자.