25분
멀티모달 RAG, 이렇게 하면 망한다
Day 1: 멀티모달 RAG
멀티모달 RAG, 이렇게 하면 망한다
RAG 심화 > Day 1: 멀티모달 RAG
학습 목표
멀티모달 RAG 구현 시 자주 발생하는 실수를 파악한다 각 실수에 대한 해결책을 설명할 수 있다
멀티모달 RAG, 이렇게 하면 망한다
실제 프로젝트에서 반복되는 실수 5가지. 미리 알면 삽질을 줄인다.
실수 1: 이미지 해상도를 무시한다
에디터 로딩 중...
문제: 도면의 치수, 작은 글씨가 인식 안 됨
해결:
에디터 로딩 중...
실수 2: 이미지 설명 품질을 검증 안 한다
에디터 로딩 중...
문제: GPT-4V가 "잘 모르겠습니다", "이미지가 불명확합니다" 같은 무의미한 결과를 반환해도 그대로 인덱싱됨
해결:
에디터 로딩 중...
실수 3: 표 데이터를 텍스트로만 변환한다
에디터 로딩 중...
문제: 구조 정보가 사라져서 "주축 베어링의 재질"을 못 찾음
해결:
에디터 로딩 중...
실수 4: 이미지 주변 컨텍스트를 버린다
에디터 로딩 중...
문제: "그림 3-5: 주축 기어 조립도"라는 캡션이 바로 위에 있는데 무시
해결:
에디터 로딩 중...
실수 5: API 비용이 폭발한다
에디터 로딩 중...
해결:
에디터 로딩 중...
체크리스트
시작 전에 확인하자:
- 이미지 해상도에 따른 detail 동적 설정
- 이미지 설명 품질 필터링 (길이, 거부 패턴)
- 표 변환 시 마크다운 + 자연어 설명 동시 생성
- 이미지 주변 텍스트를 컨텍스트로 활용
- 중복 이미지 제거 + 결과 캐싱