🏆90

Day 2 도전과제: 제조 Q&A 데이터셋 500건 구축

학습 데이터 준비

요구사항

카테고리 5개 이상에서 시드 데이터 각 5건 이상 직접 작성 (총 25건+)

GPT-4 증강으로 총 500건 이상 확보 (또는 시뮬레이션)

품질 검증 파이프라인 통과율 80% 이상

HuggingFace Dataset 포맷(JSONL)으로 변환 완료

Train/Val 분할 완료 (90:10)

평가 기준
  • 시드 데이터의 품질 (구체성, 정확성, 형식 일관성)
  • 카테고리 다양성 (편향 없이 균형 분포)
  • 품질 검증 결과 리포트 작성
  • 최종 데이터셋 통계 (토큰 분포, 건수)
보너스
  • ShareGPT 형식 멀티턴 데이터 50건 이상 추가
  • 전문가 검수 시뮬레이션 (직접 10건 이상 수정)
  • HuggingFace Hub에 데이터셋 업로드