50

실습: HuggingFace Dataset 포맷으로 변환 & 업로드

학습 데이터 준비

학습 목표

Alpaca 형식 데이터를 HuggingFace Dataset으로 변환한다 Prompt 템플릿을 적용하여 학습 텍스트를 생성한다 Train/Validation 분할을 수행한다

HuggingFace Dataset 변환

핵심: Prompt 템플릿

  • 원본 데이터(JSON) -> 프롬프트 템플릿 적용 -> 하나의 텍스트 문자열
  • 모델은 이 텍스트를 "다음 토큰 예측"으로 학습
에디터 로딩 중...
힌트 보기
  • format_alpaca: input이 있으면 3필드 템플릿, 없으면 2필드 템플릿 사용
  • val_ratio=0.1 (10%)이 표준, 데이터가 적으면 0.2까지 가능
  • JSONL 형식: 한 줄에 하나의 JSON 객체
정답 보기
에디터 로딩 중...