▶️25분

[영상] 처음 배우는 LLM 파인튜닝 -- 4분 핵심

파인튜닝 개요 & LoRA/QLoRA

학습 목표

Full Fine-Tuning·LoRA·QLoRA 세 가지 파인튜닝 방식의 메모리 사용량과 학습 파라미터 수를 비교 설명할 수 있다 LoRA가 행렬 분해(Low-Rank Decomposition)를 통해 훈련 파라미터를 줄이는 원리를 수식 없이 직관적으로 설명할 수 있다 QLoRA가 4-bit NF4 양자화와 LoRA를 결합해 소비자용 GPU에서 대형 모델을 파인튜닝할 수 있게 된 이유를 설명할 수 있다 제조 도메인 sLLM 구축에 QLoRA가 적합한 이유를 비용·성능 관점에서 논거를 들어 설명할 수 있다

▶️YouTube에서 보기25분

영상 핵심 정리 — 처음 배우는 LLM 파인튜닝 4분 핵심

이 영상은 LLM 파인튜닝의 세 가지 방법인 Full Fine-Tuning, LoRA, QLoRA를 비교하며 왜 QLoRA가 실용적인 선택인지 설명한다. GPU 메모리 제약이 있는 현실에서 대형 모델을 제조 도메인에 특화시키는 전략을 이해한다.

1. 세 가지 방법 한눈 비교

방법	학습 파라미터	GPU 메모리 (7B 기준)	특징
Full Fine-Tuning	100% (7B)	~112GB (A100×2)	최고 성능, 현실 불가
LoRA	0.1~1% (~7M)	~16GB (A100×1)	빠른 학습, 좋은 성능
QLoRA	0.1~1%	~5GB (RTX 3090)	소비자 GPU 가능

2. LoRA 원리 — 행렬 분해의 직관

원본 가중치 행렬 W (4096×4096) ← 동결(Freeze)

학습하는 것:
  A 행렬 (4096×16)  +  B 행렬 (16×4096)
  = 더하기: W + A×B  (rank=16)

학습 파라미터: 4096×16 + 16×4096 = 131,072개
vs. 원본: 4096×4096 = 16,777,216개
→ 약 128배 감소

3. QLoRA = NF4 양자화 + LoRA

[기반 모델 7B]  →  NF4 4-bit 양자화  →  메모리 ÷4 (동결)
                         ↓
               BF16 LoRA 어댑터 추가 (학습)
                         ↓
          역전파 시 NF4 → BF16 임시 역양자화
          (Paged Optimizer로 메모리 스파이크 관리)

핵심 3가지 혁신: NF4 데이터타입, Double Quantization(양자화 상수도 재양자화), Paged Optimizer(GPU↔CPU 메모리 스왑)

함정 주의: QLoRA로 학습한 어댑터는 기반 모델과 별도 파일(adapter_model.bin)로 저장된다. 추론 시 기반 모델 + 어댑터를 merge해야 단독 배포가 가능하다. merge 없이 어댑터만 배포하면 기반 모델이 항상 필요하다.

다음 task와의 연결

다음 reading 'Full Fine-Tuning vs LoRA vs QLoRA 비교'에서는 세 방식의 수렴 속도·평가 지표(Perplexity, BLEU) 변화를 실험 그래프로 비교한다. 제조 도메인 데이터 특성에 따라 rank 값을 어떻게 선택할지 가이드도 포함된다.

AI로 학습하기 — 꿀팁

🧪LoRA vs QLoRA 메모리 비교 질문AI 학습 팁

Full Fine-Tuning·LoRA·QLoRA의 GPU 메모리 요구량 차이를 AI에게 수치로 비교받고, 제조 도메인 sLLM 파인튜닝에 QLoRA가 현실적인 이유를 이해하세요.

70B LLM을 Full Fine-Tuning, LoRA, QLoRA로 파인튜닝할 때 필요한 GPU 메모리를 각각 계산해줘. LoRA가 원본 가중치를 동결(Freeze)하고 A·B 두 행렬만 학습해 파라미터 0.1~1%만 훈련하는 원리, QLoRA가 4-bit NF4 압축으로 65B 모델을 48GB GPU 1장에서 파인튜닝 가능하게 만드는 방법을 제조 도메인 sLLM 구축 맥락으로 설명해줘.

이 팁이 도움이 됐나요?

핵심 포인트

• Full Fine-Tuning은 모든 파라미터를 업데이트해 최고 성능을 내지만 70B 모델 기준 GPU 메모리 500GB 이상 필요 — 현실적으로 불가
• LoRA는 원본 가중치는 동결(Freeze)하고 작은 두 행렬(A·B)만 학습한다 — 전체 파라미터의 0.1~1%만 훈련하면서 성능을 유지
• QLoRA = 4-bit NF4로 모델 압축(기반 모델 동결) + BF16 LoRA 어댑터 학습 — 65B 모델을 단일 48GB GPU에서 파인튜닝 가능
• 제조 도메인 sLLM은 '정확한 전문 용어 이해'가 핵심이라 RAG만으론 부족하다 — QLoRA로 기반 언어 능력 자체를 도메인화해야 한다

이 콘텐츠에 오류가 있나요? 신고하기