15

"모델이 이상한 답변을 해요" - 알고 보니 데이터 문제

학습 데이터 준비

학습 목표

학습 데이터 품질이 파인튜닝 결과를 결정한다는 것을 체감한다 Garbage In, Garbage Out 원칙을 이해한다

"모델이 이상한 답변을 해요"

김대리: "파인튜닝했는데 오히려 더 이상해졌어요!"

에디터 로딩 중...

박선배: "학습 데이터 좀 보자."

에디터 로딩 중...

박선배: "여기 문제다. 데이터가 너무 짧고 불성실해. 모델은 데이터에서 배운 대로만 답해. 쓰레기를 넣으면 쓰레기가 나와."

좋은 데이터 vs 나쁜 데이터

항목나쁜 데이터좋은 데이터
길이"냉각수 확인." (4 토큰)5단계 상세 절차 (50+ 토큰)
구체성"매뉴얼 참조"AL-3012 코드별 원인 분석
형식뒤죽박죽일관된 구조 (증상-원인-조치)
정확성검증 안 됨현장 전문가 검수 완료
다양성비슷한 질문 반복장비별/상황별 골고루

오늘의 목표

모델은 데이터만큼만 똑똑해진다. 오늘 하루를 데이터에 투자하면, 나머지 3일이 편해진다.

시간주제핵심 질문
1교시데이터 형식Alpaca? ShareGPT? 뭐가 다른가?
2교시데이터 수집매뉴얼에서 어떻게 뽑아내나?
3교시데이터 검증쓸 만한 데이터인지 어떻게 확인?
4교시데이터 증강100건을 1,000건으로 불리는 법
5교시실습제조 Q&A 데이터셋 구축
핵심 포인트
  • Garbage In, Garbage Out: 데이터 품질 = 모델 품질
  • 좋은 데이터: 구체적, 정확, 일관된 형식, 충분한 길이
  • 데이터 준비에 전체 시간의 60-70%를 투자해야 한다