15

Day 2 Common Pitfalls: 데이터 준비 시 흔한 실수

학습 데이터 준비

학습 목표

학습 데이터 준비 시 흔한 실수를 미리 방지한다 데이터 품질 문제의 징후를 인식한다

Day 2 Common Pitfalls

Pitfall 1: "데이터가 많으면 무조건 좋다"

에디터 로딩 중...

Pitfall 2: "카테고리 편향"

에디터 로딩 중...

Pitfall 3: "GPT-4 증강 데이터를 무검증으로 사용"

에디터 로딩 중...

Pitfall 4: "토큰 길이 무시"

에디터 로딩 중...

Pitfall 5: "Prompt 템플릿 불일치"

에디터 로딩 중...
핵심 포인트
  • 양보다 질: 200건 고품질 > 2,000건 저품질
  • 카테고리 균형: 특정 유형 편향 방지
  • GPT-4 증강 후 반드시 전문가 검수
  • max_length: p95 + 64 토큰 여유
  • 프롬프트 템플릿: 학습과 추론에 반드시 동일한 템플릿 사용