90분

멀티모달 RAG 파이프라인 구현

Day 1: 멀티모달 RAG

학습 목표

PDF에서 텍스트, 이미지, 표를 분리 추출할 수 있다 GPT-4o (비전 내장)를 활용한 이미지 분석 코드를 작성할 수 있다 멀티모달 청킹 전략을 구현할 수 있다 통합 벡터 DB를 구성할 수 있다

멀티모달 RAG 파이프라인 구현

제조 매뉴얼에서 텍스트, 이미지, 표를 모두 처리하는 RAG를 만들어보자.

목표

PDF에서 요소별 분리 추출
GPT-4o (비전 내장)로 이미지 설명 생성
표 데이터를 구조화된 텍스트로 변환
통합 벡터 DB 구축

아래 스타터 코드를 완성하세요.

에디터 로딩 중...

힌트 보기

• Unstructured의 partition_pdf에서 strategy="hi_res"를 사용하면 이미지와 표도 추출됩니다
• GPT-4o (비전 내장) (gpt-4o)에 이미지를 보낼 때 base64 인코딩이 필요합니다
• 표 변환 시 마크다운 형식과 자연어 설명 두 가지를 모두 생성하면 검색 품질이 올라갑니다
• ChromaDB에 저장할 때 메타데이터에 element_type을 넣으면 필터 검색이 가능합니다

정답 보기

에디터 로딩 중...

AI로 학습하기 — 꿀팁

🤖멀티모달 RAG 파이프라인 코드 생성AI 학습 팁

AI에게 PDF 문서 구조(텍스트·표·이미지 비율)를 알려주면 pdfminer+camelot+Vision API를 조합한 요소별 추출 파이프라인을 생성해줍니다.

제조 설비 매뉴얼 PDF에서 멀티모달 RAG 파이프라인을 구현해줘. pdfminer로 텍스트 블록 추출, camelot으로 표 추출(CSV 변환), pymupdf로 이미지 크롭 후 Gemini Vision API로 도면/회로도 분석, 세 종류를 통합한 벡터 DB(ChromaDB) 인덱싱 코드를 작성해줘.

이 팁이 도움이 됐나요?

이전 다음

이 콘텐츠에 오류가 있나요? 신고하기