35

임베딩: 텍스트를 숫자로 바꾸는 기술

Day 2: 청킹 & 임베딩

학습 목표

임베딩의 원리와 필요성을 이해한다 주요 임베딩 모델을 비교할 수 있다 제조 한글 문서에 적합한 임베딩 모델을 선택할 수 있다

임베딩이란?

에디터 로딩 중...

핵심 원리: 의미가 비슷하면 벡터도 비슷하다

에디터 로딩 중...

임베딩 모델 비교: 2024-2025 기준

API 기반 (클라우드)

모델차원최대 토큰가격한글 성능
OpenAI text-embedding-3-small15368191$0.02/1M양호
OpenAI text-embedding-3-large30728191$0.13/1M우수
Voyage-3102432000$0.06/1M우수
Cohere embed-v31024512$0.10/1M양호

오픈소스 (로컬)

모델차원최대 토큰크기한글 성능
BGE-M3102481922.3GB최우수
multilingual-e5-large10245122.2GB우수
gte-multilingual76881921.5GB우수
KoSimCSE768512500MB한국어 특화

제조 한글 문서에 뭘 써야 하나?

결론부터:

에디터 로딩 중...

임베딩 차원(Dimension)의 의미

에디터 로딩 중...

코사인 유사도 직관적 이해

에디터 로딩 중...

주의: 임베딩 모델 일관성

인덱싱과 검색에 반드시 같은 모델을 사용해야 한다.

에디터 로딩 중...