30

학습 트러블슈팅: 10가지 에러와 해결법

QLoRA 학습 실행

학습 목표

학습 중 발생하는 주요 에러를 빠르게 해결할 수 있다 에러 메시지에서 원인을 파악하는 방법을 안다

학습 트러블슈팅 TOP 10

1. CUDA Out of Memory

에디터 로딩 중...

2. NaN Loss

에디터 로딩 중...

3. Loss가 안 줄어듦

에디터 로딩 중...

4. Tokenizer 관련 에러

에디터 로딩 중...

5. 모델 로드 에러

에디터 로딩 중...

6. W&B 연결 에러

에디터 로딩 중...

7. 학습이 너무 느림

에디터 로딩 중...

8. 체크포인트에서 재개 실패

에디터 로딩 중...

9. 과적합 징후

에디터 로딩 중...

10. 학습 후 답변 품질 저하

에디터 로딩 중...
핵심 포인트
  • OOM: batch_size 줄이기 -> seq_length 줄이기 -> checkpointing
  • NaN Loss: LR 낮추기 -> warmup 늘리기 -> grad_clip
  • Loss 안 줄어듦: LR/r 올리기 -> target_modules 확장
  • 과적합: early stopping -> weight_decay -> 데이터 증강
  • 파국적 망각: 에포크/LR/r 줄이기 -> 일반 데이터 혼합