40분

QLoRA: 16GB GPU로 7B 모델을 학습하는 마법

파인튜닝 개요 & LoRA/QLoRA

학습 목표

QLoRA의 3가지 핵심 기술을 이해한다 (NF4, 이중 양자화, 페이지드 옵티마이저) 양자화가 메모리를 줄이는 원리를 파악한다 QLoRA vs LoRA 메모리 비교를 할 수 있다

QLoRA: Quantized LoRA

김대리의 질문

"LoRA가 학습 파라미터를 줄인다는 건 알겠는데, 기본 모델 자체가 28GB면 GPU에 안 올라가잖아요?"

박선배의 답

"그래서 QLoRA가 나온 거야. 기본 모델을 4비트로 압축해서 올리는 거지. 28GB -> 4GB로 줄어들어. 그 위에 LoRA를 얹는 거고."

메모리 비교

에디터 로딩 중...

QLoRA의 3가지 핵심 기술

1. NF4 (4-bit NormalFloat)

에디터 로딩 중...

2. 이중 양자화 (Double Quantization)

에디터 로딩 중...

3. 페이지드 옵티마이저 (Paged Optimizers)

에디터 로딩 중...

코드로 보는 QLoRA 설정

에디터 로딩 중...

QLoRA가 성능을 유지하는 이유

에디터 로딩 중...

추가 자료

핵심 포인트

• QLoRA = NF4 양자화 + 이중 양자화 + 페이지드 옵티마이저
• 7B 모델: 112GB -> 6GB (95% 메모리 절약)
• 기본 모델은 4비트로 압축, LoRA 어댑터는 16비트로 학습
• 성능 저하 < 1%, 메모리 절약 95%