45

실습: 제조 문서 청킹 구현

Day 2: 청킹 & 임베딩

학습 목표

RecursiveCharacterTextSplitter로 문서를 청킹할 수 있다 제조 문서에 맞는 커스텀 구분자를 설정할 수 있다 청킹 결과를 비교하고 최적 설정을 찾을 수 있다

제조 문서 청킹 실습

4가지 청킹 전략을 직접 구현하고 결과를 비교한다.


환경 설정

에디터 로딩 중...

실습 목표

  1. 고정 크기 청킹으로 SOP 문서 분할
  2. 재귀적 분할 (기본 vs 커스텀 구분자) 비교
  3. SOP 구조 기반 청킹 구현
  4. 결과 비교: 어떤 전략이 절차를 잘 보존하는가?
에디터 로딩 중...
힌트 보기
  • RecursiveCharacterTextSplitter에 is_separator_regex=True를 설정하면 정규식 구분자를 사용할 수 있다.
  • chunk_size는 토큰 수가 아니라 문자 수 기준이다. 한글은 1글자 = 약 2-3 토큰이므로 주의.
  • SOP 구조 기반 청킹에서 빈 줄을 무시하면 섹션 감지가 더 정확해진다.
정답 보기
에디터 로딩 중...