35분
임베딩: 텍스트를 숫자로 바꾸는 기술
Day 2: 청킹 & 임베딩
임베딩: 텍스트를 숫자로 바꾸는 기술
RAG 기초 > Day 2: 청킹 & 임베딩
학습 목표
임베딩의 원리와 필요성을 이해한다 주요 임베딩 모델을 비교할 수 있다 제조 한글 문서에 적합한 임베딩 모델을 선택할 수 있다
임베딩이란?
에디터 로딩 중...
핵심 원리: 의미가 비슷하면 벡터도 비슷하다
에디터 로딩 중...
임베딩 모델 비교: 2024-2025 기준
API 기반 (클라우드)
| 모델 | 차원 | 최대 토큰 | 가격 | 한글 성능 |
|---|---|---|---|---|
| OpenAI text-embedding-3-small | 1536 | 8191 | $0.02/1M | 양호 |
| OpenAI text-embedding-3-large | 3072 | 8191 | $0.13/1M | 우수 |
| Voyage-3 | 1024 | 32000 | $0.06/1M | 우수 |
| Cohere embed-v3 | 1024 | 512 | $0.10/1M | 양호 |
오픈소스 (로컬)
| 모델 | 차원 | 최대 토큰 | 크기 | 한글 성능 |
|---|---|---|---|---|
| BGE-M3 | 1024 | 8192 | 2.3GB | 최우수 |
| multilingual-e5-large | 1024 | 512 | 2.2GB | 우수 |
| gte-multilingual | 768 | 8192 | 1.5GB | 우수 |
| KoSimCSE | 768 | 512 | 500MB | 한국어 특화 |
제조 한글 문서에 뭘 써야 하나?
결론부터:
에디터 로딩 중...
임베딩 차원(Dimension)의 의미
에디터 로딩 중...
코사인 유사도 직관적 이해
에디터 로딩 중...
주의: 임베딩 모델 일관성
인덱싱과 검색에 반드시 같은 모델을 사용해야 한다.
에디터 로딩 중...