40

실습: 제조 문서 로드와 전처리

Day 1: RAG 개요 & 제조 문서 이해

학습 목표

Python으로 PDF, TXT 문서를 로드할 수 있다 한글 인코딩 문제를 해결할 수 있다 제조 문서에 적합한 로더를 선택할 수 있다

제조 문서 로드 실습

지금부터 실제 제조 문서를 다루는 코드를 작성한다. "이론은 알겠고 코드를 보여달라"는 요청에 답하는 시간이다.


환경 설정

에디터 로딩 중...

Step 1: 기본 문서 로드

아래 코드를 따라 치면서 각 로더의 차이를 확인한다.

Step 2: 한글 인코딩 처리

제조 현장 문서의 80%는 인코딩 문제를 겪는다. "깨진 글자"가 나오면 이 패턴을 사용한다.

Step 3: 문서 유형별 로더 선택

"어떤 로더를 써야 해?"가 매번 고민이라면 아래 선택 함수를 프로젝트에 복사해서 쓴다.

코드를 실행하고, 각 로더가 어떤 차이를 만드는지 직접 확인하라. 특히 PDFPlumberLoader로 표가 포함된 PDF를 로드해보면 차이가 명확하다.

에디터 로딩 중...
힌트 보기
  • chardet는 파일 시작 부분만 읽어서 인코딩을 추정한다. 100% 정확하지 않으므로 fallback이 필요하다.
  • PDFPlumberLoader는 표 구조를 유지하지만 PyPDFLoader보다 느리다. 필요할 때만 사용한다.
  • 제조 현장 문서 중 CP949(한글 윈도우) 인코딩이 아직 많다. UTF-8만 시도하면 실패한다.
정답 보기
에디터 로딩 중...