20

설비 매뉴얼 800페이지, 텍스트만으론 부족하다

Day 1: 멀티모달 RAG

학습 목표

제조 문서의 멀티모달 특성을 이해한다 텍스트 전용 RAG의 한계를 파악한다 멀티모달 RAG가 해결하는 문제를 설명할 수 있다

월요일 아침, 긴급 호출

"이 도면 보고 공차 알려줘. 매뉴얼에 있다며?"

현장 엔지니어가 태블릿을 들이밀었다. CAD 도면이다. 치수선, 공차 기호, 표면 거칠기 마크가 빼곡하다.

당신이 만든 RAG 시스템에 물어본다:

에디터 로딩 중...

정보가 없는 게 아니다. 매뉴얼 147페이지에 도면으로 있다. 텍스트가 아니라 이미지라서 RAG가 못 찾은 것이다.


제조 문서는 텍스트만이 아니다

제조 현장의 문서를 열어보자:

문서 유형텍스트이미지다이어그램
장비 매뉴얼OO (부품 사진)O (사양표)O (회로도)
SOP (표준작업절차서)OO (작업 사진)XO (순서도)
품질 기준서OO (검사 사진)O (허용 범위)X
조립 가이드OO (조립 사진)O (부품표/BOM)O (분해도)
도면 (CAD)XO (2D/3D)O (치수표)O (단면도)
검사 성적서OO (불량 사진)O (측정값)O (차트)
MSDSOO (위험 표시)O (물성표)X
KOSHA 안전지침OO (경고 표시)O (기준표)O (안전 절차도)

텍스트만 추출하면 정보의 40~60%를 잃는다.


실제 사례: 텍스트 RAG vs 멀티모달 RAG

사례 1: 도면 기반 질문

에디터 로딩 중...

사례 2: 불량 사진 분석

에디터 로딩 중...

사례 3: MSDS 위험물 정보

에디터 로딩 중...

이번 Day에서 배울 것

오늘이 끝나면:

  • PDF에서 텍스트, 이미지, 표를 분리 추출할 수 있다
  • GPT-4V로 제조 도면/사진을 분석할 수 있다
  • 멀티모달 임베딩으로 통합 검색 시스템을 구축할 수 있다
  • 제조 현장 20개 시나리오에 답할 수 있는 RAG를 만든다

시작하자.