15분
"모델이 이상한 답변을 해요" - 알고 보니 데이터 문제
학습 데이터 준비
"모델이 이상한 답변을 해요" - 알고 보니 데이터 문제
QLoRA 파인튜닝 > 학습 데이터 준비
학습 목표
학습 데이터 품질이 파인튜닝 결과를 결정한다는 것을 체감한다 Garbage In, Garbage Out 원칙을 이해한다
"모델이 이상한 답변을 해요"
김대리: "파인튜닝했는데 오히려 더 이상해졌어요!"
에디터 로딩 중...
박선배: "학습 데이터 좀 보자."
에디터 로딩 중...
박선배: "여기 문제다. 데이터가 너무 짧고 불성실해. 모델은 데이터에서 배운 대로만 답해. 쓰레기를 넣으면 쓰레기가 나와."
좋은 데이터 vs 나쁜 데이터
| 항목 | 나쁜 데이터 | 좋은 데이터 |
|---|---|---|
| 길이 | "냉각수 확인." (4 토큰) | 5단계 상세 절차 (50+ 토큰) |
| 구체성 | "매뉴얼 참조" | AL-3012 코드별 원인 분석 |
| 형식 | 뒤죽박죽 | 일관된 구조 (증상-원인-조치) |
| 정확성 | 검증 안 됨 | 현장 전문가 검수 완료 |
| 다양성 | 비슷한 질문 반복 | 장비별/상황별 골고루 |
오늘의 목표
모델은 데이터만큼만 똑똑해진다. 오늘 하루를 데이터에 투자하면, 나머지 3일이 편해진다.
| 시간 | 주제 | 핵심 질문 |
|---|---|---|
| 1교시 | 데이터 형식 | Alpaca? ShareGPT? 뭐가 다른가? |
| 2교시 | 데이터 수집 | 매뉴얼에서 어떻게 뽑아내나? |
| 3교시 | 데이터 검증 | 쓸 만한 데이터인지 어떻게 확인? |
| 4교시 | 데이터 증강 | 100건을 1,000건으로 불리는 법 |
| 5교시 | 실습 | 제조 Q&A 데이터셋 구축 |
핵심 포인트
- • Garbage In, Garbage Out: 데이터 품질 = 모델 품질
- • 좋은 데이터: 구체적, 정확, 일관된 형식, 충분한 길이
- • 데이터 준비에 전체 시간의 60-70%를 투자해야 한다