35분
Alpaca vs ShareGPT vs ChatML: 데이터 형식 완전 정리
학습 데이터 준비
Alpaca vs ShareGPT vs ChatML: 데이터 형식 완전 정리
QLoRA 파인튜닝 > 학습 데이터 준비
학습 목표
주요 파인튜닝 데이터 형식 3가지를 구분할 수 있다 제조 도메인에 적합한 형식을 선택할 수 있다 각 형식의 토큰화 방식과 특수 토큰을 이해한다
파인튜닝 데이터 형식
형식 1: Alpaca (가장 간단)
에디터 로딩 중...
특징: instruction + input(선택) + output 3필드 적합: 단일 턴 Q&A, 지시 수행 제조 활용: 장비 알람 대응, 매뉴얼 Q&A
형식 2: ShareGPT (멀티턴 대화)
에디터 로딩 중...
특징: 멀티턴 대화, human/gpt 역할 구분 적합: 대화형 진단, 단계적 트러블슈팅 제조 활용: 불량 원인 분석, 고장 진단 대화
형식 3: ChatML (OpenAI 스타일)
에디터 로딩 중...
특징: system/user/assistant 역할, 시스템 프롬프트 포함 적합: 역할 정의가 필요한 전문가 시스템 제조 활용: 안전 규정 준수 챗봇, 전문가 시스템
형식 비교 요약
| 항목 | Alpaca | ShareGPT | ChatML |
|---|---|---|---|
| 턴 수 | 단일 | 멀티 | 멀티 |
| 시스템 프롬프트 | 없음 | 없음 | 있음 |
| 난이도 | 쉬움 | 보통 | 보통 |
| 토큰 효율 | 높음 | 보통 | 보통 |
| 제조 추천 | 매뉴얼 Q&A | 진단 대화 | 전문가 시스템 |
우리의 선택: Alpaca 형식으로 시작
에디터 로딩 중...
핵심 포인트
- • Alpaca: 단일턴, 간단, 매뉴얼 Q&A에 최적
- • ShareGPT: 멀티턴, 진단 대화에 적합
- • ChatML: 시스템 프롬프트 포함, 전문가 시스템
- • 입문자는 Alpaca로 시작 -> 익숙해지면 ShareGPT/ChatML 확장