30분
학습 트러블슈팅: 10가지 에러와 해결법
QLoRA 학습 실행
학습 트러블슈팅: 10가지 에러와 해결법
QLoRA 파인튜닝 > QLoRA 학습 실행
학습 목표
학습 중 발생하는 주요 에러를 빠르게 해결할 수 있다 에러 메시지에서 원인을 파악하는 방법을 안다
학습 트러블슈팅 TOP 10
1. CUDA Out of Memory
에디터 로딩 중...
2. NaN Loss
에디터 로딩 중...
3. Loss가 안 줄어듦
에디터 로딩 중...
4. Tokenizer 관련 에러
에디터 로딩 중...
5. 모델 로드 에러
에디터 로딩 중...
6. W&B 연결 에러
에디터 로딩 중...
7. 학습이 너무 느림
에디터 로딩 중...
8. 체크포인트에서 재개 실패
에디터 로딩 중...
9. 과적합 징후
에디터 로딩 중...
10. 학습 후 답변 품질 저하
에디터 로딩 중...
핵심 포인트
- • OOM: batch_size 줄이기 -> seq_length 줄이기 -> checkpointing
- • NaN Loss: LR 낮추기 -> warmup 늘리기 -> grad_clip
- • Loss 안 줄어듦: LR/r 올리기 -> target_modules 확장
- • 과적합: early stopping -> weight_decay -> 데이터 증강
- • 파국적 망각: 에포크/LR/r 줄이기 -> 일반 데이터 혼합