15분
Day 2 Common Pitfalls: 데이터 준비 시 흔한 실수
학습 데이터 준비
Day 2 Common Pitfalls: 데이터 준비 시 흔한 실수
QLoRA 파인튜닝 > 학습 데이터 준비
학습 목표
학습 데이터 준비 시 흔한 실수를 미리 방지한다 데이터 품질 문제의 징후를 인식한다
Day 2 Common Pitfalls
Pitfall 1: "데이터가 많으면 무조건 좋다"
에디터 로딩 중...
Pitfall 2: "카테고리 편향"
에디터 로딩 중...
Pitfall 3: "GPT-4 증강 데이터를 무검증으로 사용"
에디터 로딩 중...
Pitfall 4: "토큰 길이 무시"
에디터 로딩 중...
Pitfall 5: "Prompt 템플릿 불일치"
에디터 로딩 중...
핵심 포인트
- • 양보다 질: 200건 고품질 > 2,000건 저품질
- • 카테고리 균형: 특정 유형 편향 방지
- • GPT-4 증강 후 반드시 전문가 검수
- • max_length: p95 + 64 토큰 여유
- • 프롬프트 템플릿: 학습과 추론에 반드시 동일한 템플릿 사용