35

Alpaca vs ShareGPT vs ChatML: 데이터 형식 완전 정리

학습 데이터 준비

학습 목표

주요 파인튜닝 데이터 형식 3가지를 구분할 수 있다 제조 도메인에 적합한 형식을 선택할 수 있다 각 형식의 토큰화 방식과 특수 토큰을 이해한다

파인튜닝 데이터 형식

형식 1: Alpaca (가장 간단)

에디터 로딩 중...

특징: instruction + input(선택) + output 3필드 적합: 단일 턴 Q&A, 지시 수행 제조 활용: 장비 알람 대응, 매뉴얼 Q&A

형식 2: ShareGPT (멀티턴 대화)

에디터 로딩 중...

특징: 멀티턴 대화, human/gpt 역할 구분 적합: 대화형 진단, 단계적 트러블슈팅 제조 활용: 불량 원인 분석, 고장 진단 대화

형식 3: ChatML (OpenAI 스타일)

에디터 로딩 중...

특징: system/user/assistant 역할, 시스템 프롬프트 포함 적합: 역할 정의가 필요한 전문가 시스템 제조 활용: 안전 규정 준수 챗봇, 전문가 시스템

형식 비교 요약

항목AlpacaShareGPTChatML
턴 수단일멀티멀티
시스템 프롬프트없음없음있음
난이도쉬움보통보통
토큰 효율높음보통보통
제조 추천매뉴얼 Q&A진단 대화전문가 시스템

우리의 선택: Alpaca 형식으로 시작

에디터 로딩 중...
핵심 포인트
  • Alpaca: 단일턴, 간단, 매뉴얼 Q&A에 최적
  • ShareGPT: 멀티턴, 진단 대화에 적합
  • ChatML: 시스템 프롬프트 포함, 전문가 시스템
  • 입문자는 Alpaca로 시작 -> 익숙해지면 ShareGPT/ChatML 확장