▶️25분
[영상] 처음 배우는 LLM 파인튜닝 -- 4분 핵심
파인튜닝 개요 & LoRA/QLoRA
[영상] 처음 배우는 LLM 파인튜닝 -- 4분 핵심
QLoRA 파인튜닝 > 파인튜닝 개요 & LoRA/QLoRA
학습 목표
Full Fine-Tuning·LoRA·QLoRA 세 가지 파인튜닝 방식의 메모리 사용량과 학습 파라미터 수를 비교 설명할 수 있다 LoRA가 행렬 분해(Low-Rank Decomposition)를 통해 훈련 파라미터를 줄이는 원리를 수식 없이 직관적으로 설명할 수 있다 QLoRA가 4-bit NF4 양자화와 LoRA를 결합해 소비자용 GPU에서 대형 모델을 파인튜닝할 수 있게 된 이유를 설명할 수 있다 제조 도메인 sLLM 구축에 QLoRA가 적합한 이유를 비용·성능 관점에서 논거를 들어 설명할 수 있다
플레이어 로딩 중...
핵심 포인트
- • Full Fine-Tuning은 모든 파라미터를 업데이트해 최고 성능을 내지만 70B 모델 기준 GPU 메모리 500GB 이상 필요 — 현실적으로 불가
- • LoRA는 원본 가중치는 동결(Freeze)하고 작은 두 행렬(A·B)만 학습한다 — 전체 파라미터의 0.1~1%만 훈련하면서 성능을 유지
- • QLoRA = 4-bit NF4로 모델 압축(기반 모델 동결) + BF16 LoRA 어댑터 학습 — 65B 모델을 단일 48GB GPU에서 파인튜닝 가능
- • 제조 도메인 sLLM은 '정확한 전문 용어 이해'가 핵심이라 RAG만으론 부족하다 — QLoRA로 기반 언어 능력 자체를 도메인화해야 한다