▶️25

[영상] 벡터 임베딩과 벡터 스토어 이해하기

Day 2: 청킹 & 임베딩

학습 목표

벡터 임베딩이 텍스트를 수치 공간으로 변환하는 원리를 설명할 수 있다 고정 크기 청킹과 시맨틱 청킹의 차이점 및 장단점을 비교할 수 있다 코사인 유사도를 사용해 두 문서 청크의 관련성을 계산하는 방법을 설명할 수 있다 제조 기술 문서에 적합한 청크 크기를 근거와 함께 제안할 수 있다

플레이어 로딩 중...
핵심 포인트
  • 임베딩: 의미가 비슷한 문장은 벡터 공간에서 가깝게 위치 — '베어링 교체'와 '롤러 베어링 교환'은 높은 코사인 유사도
  • 5가지 청킹 전략: 고정 크기, 문장 단위, 재귀적, 시맨틱, 문서 구조 기반
  • 시맨틱 청킹은 인접 문장 임베딩 간 거리가 갑자기 커지는 지점에서 분할 — 주제 전환 감지
  • BGE-M3: 1024차원, 최대 8192 토큰, 다국어 지원 — 한국어 제조 문서에 최적