40분
멀티모달 문서 처리 전략 3가지
Day 1: 멀티모달 RAG
멀티모달 문서 처리 전략 3가지
RAG 심화 > Day 1: 멀티모달 RAG
학습 목표
세 가지 멀티모달 RAG 전략을 비교할 수 있다 Unstructured 라이브러리의 역할을 이해한다 CLIP vs GPT-4V 기반 접근의 트레이드오프를 파악한다 제조 문서 유형별 최적 전략을 선택할 수 있다
"도면을 어떻게 RAG에 넣지?"
동료가 묻는다.
"텍스트는 임베딩하면 되잖아. 이미지는? 표는? 도면은?"
정답은 하나가 아니다. 상황에 따라 전략이 다르다.
전략 1: 텍스트로 변환 후 임베딩 (Text-First)
모든 비텍스트 콘텐츠를 텍스트로 바꾼 뒤, 기존 RAG 파이프라인에 태운다.
에디터 로딩 중...
장점:
- 기존 RAG 인프라를 그대로 재사용
- 텍스트 임베딩 모델의 높은 검색 정확도
- 구현이 상대적으로 간단
단점:
- 시각적 정보 일부 손실 (색상, 위치 관계 등)
- GPT-4V API 비용 발생 (이미지당 $0.01~0.03)
- 변환 품질에 따른 정보 손실 위험
적합한 문서:
- 장비 매뉴얼, SOP, 품질 기준서
- 텍스트가 주이고 이미지가 보조인 문서
전략 2: 멀티모달 임베딩 (CLIP 기반)
이미지와 텍스트를 같은 벡터 공간에 임베딩한다.
에디터 로딩 중...
장점:
- 이미지-텍스트 직접 비교 가능 (Cross-modal)
- 빠른 처리 속도 (로컬 모델)
- API 비용 없음 (오픈소스)
단점:
- 제조 도메인 특화 부족 (일반 CLIP 모델 한계)
- 세부 텍스트 정보 인식 어려움 (도면의 치수 등)
- 한국어 성능 제한적
적합한 문서:
- 부품 이미지 카탈로그, 불량 사진 데이터베이스
- 이미지 유사성이 핵심인 검색
전략 3: 하이브리드 접근 (권장)
두 전략을 결합한다. 이것이 제조 현장에서 가장 효과적이다.
에디터 로딩 중...
장점:
- 시각적 유사도 + 의미적 이해 모두 활용
- 제조 도면, 사진, 표 모두 처리 가능
- 높은 검색 정확도
단점:
- 파이프라인 복잡도 증가
- 비용 증가 (CLIP + GPT-4V)
- 인덱싱 시간 증가
적합한 문서:
- 고가치 기술 문서 (도면, 기술 사양서)
- 다양한 유형이 혼재된 종합 매뉴얼
전략 선택 가이드
| 기준 | 전략 1 (Text-First) | 전략 2 (CLIP) | 전략 3 (하이브리드) |
|---|---|---|---|
| 구현 난이도 | 낮음 | 중간 | 높음 |
| 비용 | 중간 (API) | 낮음 (로컬) | 높음 |
| 텍스트 검색 | 우수 | 보통 | 우수 |
| 이미지 검색 | 보통 | 우수 | 우수 |
| 표 처리 | 우수 | 불가 | 우수 |
| 도면 분석 | 우수 | 보통 | 우수 |
| 추천 문서 수 | 100+ 페이지 | 이미지 중심 | 핵심 기술 문서 |
Unstructured 라이브러리
멀티모달 파싱의 핵심 도구다.
에디터 로딩 중...
추출 가능한 요소:
| 요소 타입 | 설명 | 예시 |
|---|---|---|
NarrativeText | 본문 텍스트 | 설명, 주의사항 |
Title | 제목, 헤딩 | "3.2 주축 조립" |
Table | 표 (HTML/마크다운) | 사양표, BOM |
Image | 이미지 경로 | 도면, 사진 |
ListItem | 목록 항목 | 절차, 체크리스트 |
Header/Footer | 머리글/바닥글 | 문서 번호, 페이지 |