▶️25

[영상] LLaMA 3.1 QLoRA 파인튜닝 실습

QLoRA 학습 실행

학습 목표

LLaMA 3.1 모델을 QLoRA로 파인튜닝하는 핵심 하이퍼파라미터(rank, lora_alpha, learning_rate, batch_size)를 설명하고 기본값을 암기할 수 있다 bitsandbytes 라이브러리의 BitsAndBytesConfig를 설정해 4-bit 양자화를 적용하는 코드를 작성할 수 있다 학습 중 손실(Loss) 곡선을 보고 과적합·과소적합·정상 수렴을 판단할 수 있다 GPU 메모리 부족(OOM) 에러 발생 시 해결 순서를 단계별로 설명할 수 있다

플레이어 로딩 중...
핵심 포인트
  • QLoRA 기본 하이퍼파라미터: rank=16, lora_alpha=16, dropout=0.05, lr=1e-4 — 이 값에서 시작해 조정한다
  • target_modules를 'all-linear'로 설정하면 모든 선형 레이어에 LoRA를 적용해 성능을 극대화할 수 있다
  • gradient_checkpointing=True로 설정하면 중간 활성값을 재계산해 메모리를 절반으로 줄이지만 학습 속도가 약 20% 느려진다
  • Loss가 낮아지다가 갑자기 치솟으면 학습률이 너무 높은 것 — lr을 절반으로 줄이고 warmup_ratio=0.03을 추가하면 안정된다