90

멀티모달 RAG 파이프라인 구현

Day 1: 멀티모달 RAG

학습 목표

PDF에서 텍스트, 이미지, 표를 분리 추출할 수 있다 GPT-4V를 활용한 이미지 분석 코드를 작성할 수 있다 멀티모달 청킹 전략을 구현할 수 있다 통합 벡터 DB를 구성할 수 있다

멀티모달 RAG 파이프라인 구현

제조 매뉴얼에서 텍스트, 이미지, 표를 모두 처리하는 RAG를 만들어보자.

목표

  1. PDF에서 요소별 분리 추출
  2. GPT-4V로 이미지 설명 생성
  3. 표 데이터를 구조화된 텍스트로 변환
  4. 통합 벡터 DB 구축

아래 스타터 코드를 완성하세요.

에디터 로딩 중...
힌트 보기
  • Unstructured의 partition_pdf에서 strategy="hi_res"를 사용하면 이미지와 표도 추출됩니다
  • GPT-4V (gpt-4o)에 이미지를 보낼 때 base64 인코딩이 필요합니다
  • 표 변환 시 마크다운 형식과 자연어 설명 두 가지를 모두 생성하면 검색 품질이 올라갑니다
  • ChromaDB에 저장할 때 메타데이터에 element_type을 넣으면 필터 검색이 가능합니다
정답 보기
에디터 로딩 중...