25

멀티모달 RAG, 이렇게 하면 망한다

Day 1: 멀티모달 RAG

학습 목표

멀티모달 RAG 구현 시 자주 발생하는 실수를 파악한다 각 실수에 대한 해결책을 설명할 수 있다

멀티모달 RAG, 이렇게 하면 망한다

실제 프로젝트에서 반복되는 실수 5가지. 미리 알면 삽질을 줄인다.


실수 1: 이미지 해상도를 무시한다

에디터 로딩 중...

문제: 도면의 치수, 작은 글씨가 인식 안 됨

해결:

에디터 로딩 중...

실수 2: 이미지 설명 품질을 검증 안 한다

에디터 로딩 중...

문제: GPT-4V가 "잘 모르겠습니다", "이미지가 불명확합니다" 같은 무의미한 결과를 반환해도 그대로 인덱싱됨

해결:

에디터 로딩 중...

실수 3: 표 데이터를 텍스트로만 변환한다

에디터 로딩 중...

문제: 구조 정보가 사라져서 "주축 베어링의 재질"을 못 찾음

해결:

에디터 로딩 중...

실수 4: 이미지 주변 컨텍스트를 버린다

에디터 로딩 중...

문제: "그림 3-5: 주축 기어 조립도"라는 캡션이 바로 위에 있는데 무시

해결:

에디터 로딩 중...

실수 5: API 비용이 폭발한다

에디터 로딩 중...

해결:

에디터 로딩 중...

체크리스트

시작 전에 확인하자:

  • 이미지 해상도에 따른 detail 동적 설정
  • 이미지 설명 품질 필터링 (길이, 거부 패턴)
  • 표 변환 시 마크다운 + 자연어 설명 동시 생성
  • 이미지 주변 텍스트를 컨텍스트로 활용
  • 중복 이미지 제거 + 결과 캐싱