90분
멀티모달 RAG 파이프라인 구현
Day 1: 멀티모달 RAG
멀티모달 RAG 파이프라인 구현
RAG 심화 > Day 1: 멀티모달 RAG
학습 목표
PDF에서 텍스트, 이미지, 표를 분리 추출할 수 있다 GPT-4V를 활용한 이미지 분석 코드를 작성할 수 있다 멀티모달 청킹 전략을 구현할 수 있다 통합 벡터 DB를 구성할 수 있다
멀티모달 RAG 파이프라인 구현
제조 매뉴얼에서 텍스트, 이미지, 표를 모두 처리하는 RAG를 만들어보자.
목표
- PDF에서 요소별 분리 추출
- GPT-4V로 이미지 설명 생성
- 표 데이터를 구조화된 텍스트로 변환
- 통합 벡터 DB 구축
아래 스타터 코드를 완성하세요.
에디터 로딩 중...
힌트 보기
- • Unstructured의 partition_pdf에서 strategy="hi_res"를 사용하면 이미지와 표도 추출됩니다
- • GPT-4V (gpt-4o)에 이미지를 보낼 때 base64 인코딩이 필요합니다
- • 표 변환 시 마크다운 형식과 자연어 설명 두 가지를 모두 생성하면 검색 품질이 올라갑니다
- • ChromaDB에 저장할 때 메타데이터에 element_type을 넣으면 필터 검색이 가능합니다
정답 보기
에디터 로딩 중...