🏆90분
Day 2 도전과제: 제조 Q&A 데이터셋 500건 구축
학습 데이터 준비
Day 2 도전과제: 제조 Q&A 데이터셋 500건 구축
QLoRA 파인튜닝 > 학습 데이터 준비
요구사항
카테고리 5개 이상에서 시드 데이터 각 5건 이상 직접 작성 (총 25건+)
GPT-4 증강으로 총 500건 이상 확보 (또는 시뮬레이션)
품질 검증 파이프라인 통과율 80% 이상
HuggingFace Dataset 포맷(JSONL)으로 변환 완료
Train/Val 분할 완료 (90:10)
평가 기준
- • 시드 데이터의 품질 (구체성, 정확성, 형식 일관성)
- • 카테고리 다양성 (편향 없이 균형 분포)
- • 품질 검증 결과 리포트 작성
- • 최종 데이터셋 통계 (토큰 분포, 건수)
보너스
- • ShareGPT 형식 멀티턴 데이터 50건 이상 추가
- • 전문가 검수 시뮬레이션 (직접 10건 이상 수정)
- • HuggingFace Hub에 데이터셋 업로드