40분
청킹 전략: 문서를 어떻게 쪼갤 것인가
Day 2: 청킹 & 임베딩
청킹 전략: 문서를 어떻게 쪼갤 것인가
RAG 기초 > Day 2: 청킹 & 임베딩
학습 목표
4가지 주요 청킹 전략을 이해한다 각 전략의 장단점을 비교할 수 있다 제조 문서 유형별 최적 청킹 전략을 선택할 수 있다
청킹이란?
에디터 로딩 중...
전략 1: 고정 크기 청킹 (Fixed-Size)
가장 단순한 방법. 정해진 글자(토큰) 수로 자른다.
에디터 로딩 중...
| 장점 | 단점 |
|---|---|
| 구현 간단 | 문맥 파괴 가능 |
| 균일한 크기 | 표/절차가 쪼개질 수 있음 |
| 예측 가능한 토큰 수 | 의미 단위 무시 |
언제 쓰나?
- 빠른 프로토타입
- 구조가 없는 일반 텍스트
전략 2: 재귀적 문자 분할 (RecursiveCharacterTextSplitter)
LangChain에서 가장 많이 쓰이는 방법. 여러 구분자를 우선순위대로 시도한다.
에디터 로딩 중...
제조 문서용 커스텀 구분자:
에디터 로딩 중...
전략 3: 시맨틱 청킹 (Semantic Chunking)
의미가 변하는 지점에서 자른다. 문장 간 임베딩 유사도를 계산하여 "의미의 경계"를 찾는다.
에디터 로딩 중...
| 장점 | 단점 |
|---|---|
| 의미 단위 보존 | 임베딩 모델 추가 호출 필요 |
| 검색 정확도 높음 | 청크 크기 불균일 |
| 문맥 자연스러움 | 구현 복잡도 높음 |
전략 4: 문서 구조 기반 청킹 (Structure-Aware)
제조 문서에 가장 적합한 방법. 문서의 기존 구조(섹션, 절차 번호)를 활용한다.
에디터 로딩 중...
핵심: 청킹 후에도 "이 청크가 어디에 속하는지" 알 수 있다.
제조 문서 유형별 최적 청킹 전략
| 문서 유형 | 권장 전략 | chunk_size | overlap | 이유 |
|---|---|---|---|---|
| SOP | 구조 기반 | 500~800 | 100 | 절차 단위 보존 |
| 설비 매뉴얼 | 재귀적 (커스텀 구분자) | 800~1000 | 150 | 섹션 단위 |
| 사양서 | 표 단위 | 300~500 | 50 | 표 행 보존 |
| 안전 규정 | 조항 단위 | 500~800 | 100 | 법적 조항 |
| FAQ | Q&A 쌍 | 300~500 | 0 | 질문-답변 묶음 |
| 트러블슈팅 | 사례 단위 | 500~800 | 100 | 증상-원인-해결 |
Overlap(중복)은 왜 필요한가?
에디터 로딩 중...
경험 법칙: overlap = chunk_size의 15~20%