10분

"모델이 이상한 답변을 해요" - 알고 보니 데이터 문제

학습 데이터 준비

학습 목표

학습 데이터 품질이 파인튜닝 결과를 결정한다는 것을 체감한다 Garbage In, Garbage Out 원칙을 이해한다

"모델이 이상한 답변을 해요"

김대리: "파인튜닝했는데 오히려 더 이상해졌어요!"

LoRA 작동 원리

[파인튜닝 후 모델 답변]

Q: CNC 스핀들 과열 알람 대응법은?
A: 스핀들 과열 시 다음을 확인하세요.
   1. 냉각수를 확인합니다
   2. 냉각수를 확인합니다
   3. 위의 사항을 참고하여 냉각수를 확인합니다
   자세한 내용은 매뉴얼을 참조하세요.

박선배: "학습 데이터 좀 보자."

{
  "instruction": "스핀들 과열 시 조치",
  "output": "냉각수 확인. 매뉴얼 참조."
}

박선배: "여기 문제다. 데이터가 너무 짧고 불성실해. 모델은 데이터에서 배운 대로만 답해. 쓰레기를 넣으면 쓰레기가 나와."

좋은 데이터 vs 나쁜 데이터

항목	나쁜 데이터	좋은 데이터
길이	"냉각수 확인." (4 토큰)	5단계 상세 절차 (50+ 토큰)
구체성	"매뉴얼 참조"	AL-3012 코드별 원인 분석
형식	뒤죽박죽	일관된 구조 (증상-원인-조치)
정확성	검증 안 됨	현장 전문가 검수 완료
다양성	비슷한 질문 반복	장비별/상황별 골고루

오늘의 목표

모델은 데이터만큼만 똑똑해진다. 오늘 하루를 데이터에 투자하면, 나머지 3일이 편해진다.

시간	주제	핵심 질문
1교시	데이터 형식	Alpaca? ShareGPT? 뭐가 다른가?
2교시	데이터 수집	매뉴얼에서 어떻게 뽑아내나?
3교시	데이터 검증	쓸 만한 데이터인지 어떻게 확인?
4교시	데이터 증강	100건을 1,000건으로 불리는 법
5교시	실습	제조 Q&A 데이터셋 구축

AI로 학습하기 — 꿀팁

🧪데이터 품질이 파인튜닝 품질 결정AI 학습 팁

제조 설비 매뉴얼에서 수집한 Q&A 데이터에 노이즈가 섞이면 어떤 답변 패턴이 나타나는지, 구체 사례로 Garbage In Garbage Out을 체감해 보세요.

QLoRA 파인튜닝 학습 데이터의 품질 문제가 모델 답변에 어떻게 나타나는지 설명해줘. 제조 시나리오: 프레스 설비 PM(예방정비) 절차 Q&A 200건을 수집했는데, (A) 답변에 오탈자가 20% 섞인 경우, (B) 질문-답변 쌍이 뒤집힌 경우(답이 질문란에), (C) 동일 질문에 서로 모순된 두 답변이 섞인 경우 각각 모델이 어떤 이상 동작을 보이는지 구체적으로 예시를 들어 설명해줘.

이 팁이 도움이 됐나요?

핵심 포인트

• Garbage In, Garbage Out: 데이터 품질 = 모델 품질
• 좋은 데이터: 구체적, 정확, 일관된 형식, 충분한 길이
• 데이터 준비에 전체 시간의 60-70%를 투자해야 한다

이 콘텐츠에 오류가 있나요? 신고하기