35분
벡터 DB 완전 가이드: Chroma vs Pinecone
Day 3: 벡터 DB (Chroma, Pinecone)
벡터 DB 완전 가이드: Chroma vs Pinecone
RAG 기초 > Day 3: 벡터 DB (Chroma, Pinecone)
학습 목표
벡터 DB의 핵심 인덱싱 알고리즘을 이해한다 Chroma와 Pinecone의 차이를 구분할 수 있다 프로젝트에 적합한 벡터 DB를 선택할 수 있다
벡터 DB란?
벡터 DB는 고차원 벡터를 저장하고 빠르게 유사 벡터를 검색하는 데이터베이스다.
에디터 로딩 중...
핵심 알고리즘: HNSW
대부분의 벡터 DB가 사용하는 인덱싱 알고리즘.
에디터 로딩 중...
Chroma vs Pinecone 비교
| 항목 | Chroma | Pinecone |
|---|---|---|
| 유형 | 오픈소스, 로컬/서버 | 클라우드 매니지드 |
| 설치 | pip install chromadb | pip install pinecone |
| 비용 | 무료 | Free tier + 유료 |
| 저장 | 로컬 디스크 또는 서버 | 클라우드 (AWS/GCP) |
| 확장성 | 수만~수십만 벡터 | 수백만~수억 벡터 |
| 보안 | 직접 관리 | SOC2 인증 |
| 운영 | 직접 (백업, 모니터링) | 자동 (매니지드) |
언제 뭘 쓰나?
에디터 로딩 중...
Chroma 아키텍처
에디터 로딩 중...
Pinecone 아키텍처
에디터 로딩 중...
메타데이터 필터링: 제조에서 핵심
단순 유사도 검색으로는 부족하다. "CNC 관련 문서에서만 검색"이 필요하다.
에디터 로딩 중...
제조 필수 메타데이터:
| 필드 | 예시 | 용도 |
|---|---|---|
| equipment | "CNC-3000" | 설비별 필터 |
| doc_type | "SOP", "manual", "spec" | 문서 유형 필터 |
| version | "2.1" | 최신 문서 우선 |
| approved_date | "2024-03-15" | 유효 문서 확인 |
| department | "생산1팀" | 부서별 접근 |
| safety_level | "critical" | 위험도 필터 |