40

청킹 전략: 문서를 어떻게 쪼갤 것인가

Day 2: 청킹 & 임베딩

학습 목표

4가지 주요 청킹 전략을 이해한다 각 전략의 장단점을 비교할 수 있다 제조 문서 유형별 최적 청킹 전략을 선택할 수 있다

청킹이란?

에디터 로딩 중...

전략 1: 고정 크기 청킹 (Fixed-Size)

가장 단순한 방법. 정해진 글자(토큰) 수로 자른다.

에디터 로딩 중...
장점단점
구현 간단문맥 파괴 가능
균일한 크기표/절차가 쪼개질 수 있음
예측 가능한 토큰 수의미 단위 무시

언제 쓰나?

  • 빠른 프로토타입
  • 구조가 없는 일반 텍스트

전략 2: 재귀적 문자 분할 (RecursiveCharacterTextSplitter)

LangChain에서 가장 많이 쓰이는 방법. 여러 구분자를 우선순위대로 시도한다.

에디터 로딩 중...

제조 문서용 커스텀 구분자:

에디터 로딩 중...

전략 3: 시맨틱 청킹 (Semantic Chunking)

의미가 변하는 지점에서 자른다. 문장 간 임베딩 유사도를 계산하여 "의미의 경계"를 찾는다.

에디터 로딩 중...
장점단점
의미 단위 보존임베딩 모델 추가 호출 필요
검색 정확도 높음청크 크기 불균일
문맥 자연스러움구현 복잡도 높음

전략 4: 문서 구조 기반 청킹 (Structure-Aware)

제조 문서에 가장 적합한 방법. 문서의 기존 구조(섹션, 절차 번호)를 활용한다.

에디터 로딩 중...

핵심: 청킹 후에도 "이 청크가 어디에 속하는지" 알 수 있다.


제조 문서 유형별 최적 청킹 전략

문서 유형권장 전략chunk_sizeoverlap이유
SOP구조 기반500~800100절차 단위 보존
설비 매뉴얼재귀적 (커스텀 구분자)800~1000150섹션 단위
사양서표 단위300~50050표 행 보존
안전 규정조항 단위500~800100법적 조항
FAQQ&A 쌍300~5000질문-답변 묶음
트러블슈팅사례 단위500~800100증상-원인-해결

Overlap(중복)은 왜 필요한가?

에디터 로딩 중...

경험 법칙: overlap = chunk_size의 15~20%