45분
실습: 제조 문서 청킹 구현
Day 2: 청킹 & 임베딩
실습: 제조 문서 청킹 구현
RAG 기초 > Day 2: 청킹 & 임베딩
학습 목표
RecursiveCharacterTextSplitter로 문서를 청킹할 수 있다 제조 문서에 맞는 커스텀 구분자를 설정할 수 있다 청킹 결과를 비교하고 최적 설정을 찾을 수 있다
제조 문서 청킹 실습
4가지 청킹 전략을 직접 구현하고 결과를 비교한다.
환경 설정
에디터 로딩 중...
실습 목표
- 고정 크기 청킹으로 SOP 문서 분할
- 재귀적 분할 (기본 vs 커스텀 구분자) 비교
- SOP 구조 기반 청킹 구현
- 결과 비교: 어떤 전략이 절차를 잘 보존하는가?
에디터 로딩 중...
힌트 보기
- • RecursiveCharacterTextSplitter에 is_separator_regex=True를 설정하면 정규식 구분자를 사용할 수 있다.
- • chunk_size는 토큰 수가 아니라 문자 수 기준이다. 한글은 1글자 = 약 2-3 토큰이므로 주의.
- • SOP 구조 기반 청킹에서 빈 줄을 무시하면 섹션 감지가 더 정확해진다.
정답 보기
에디터 로딩 중...