60

Phase 1: 제조 Q&A 데이터셋 구축 (300건+)

제조 도메인 sLLM 구축

학습 목표

5개 카테고리에서 고품질 데이터 300건 이상을 확보한다 데이터 품질 검증을 통과시킨다 HuggingFace Dataset으로 변환한다

Phase 1: 데이터셋 구축

카테고리별 목표

  1. 장비 알람/에러 (75건): AL코드별 원인-조치
  2. 고장 진단 (60건): 증상 기반 진단
  3. 작업 절차 (60건): SOP, 교체 절차
  4. 품질 검사 (55건): 불량 판정, 기준
  5. 안전 규정 (50건): 위험 상황 대응

데이터 생성 전략

  • 시드 데이터: 카테고리별 5건 직접 작성 (25건)
  • GPT-4 증강: 각 시드 x 10 변형 (250건)
  • 품질 검증 후 300건 이상 확보
에디터 로딩 중...
힌트 보기
  • 시드 데이터는 최대한 다양한 장비와 상황을 커버
  • 각 output은 원인-조치-안전 3부분 구조
  • GPT-4 증강 시 존재하지 않는 에러 코드 주의
정답 보기
에디터 로딩 중...