60분
Phase 1: 제조 Q&A 데이터셋 구축 (300건+)
제조 도메인 sLLM 구축
Phase 1: 제조 Q&A 데이터셋 구축 (300건+)
QLoRA 파인튜닝 > 제조 도메인 sLLM 구축
학습 목표
5개 카테고리에서 고품질 데이터 300건 이상을 확보한다 데이터 품질 검증을 통과시킨다 HuggingFace Dataset으로 변환한다
Phase 1: 데이터셋 구축
카테고리별 목표
- 장비 알람/에러 (75건): AL코드별 원인-조치
- 고장 진단 (60건): 증상 기반 진단
- 작업 절차 (60건): SOP, 교체 절차
- 품질 검사 (55건): 불량 판정, 기준
- 안전 규정 (50건): 위험 상황 대응
데이터 생성 전략
- 시드 데이터: 카테고리별 5건 직접 작성 (25건)
- GPT-4 증강: 각 시드 x 10 변형 (250건)
- 품질 검증 후 300건 이상 확보
에디터 로딩 중...
힌트 보기
- • 시드 데이터는 최대한 다양한 장비와 상황을 커버
- • 각 output은 원인-조치-안전 3부분 구조
- • GPT-4 증강 시 존재하지 않는 에러 코드 주의
정답 보기
에디터 로딩 중...