50분
실습: GPT-4를 활용한 학습 데이터 증강
학습 데이터 준비
실습: GPT-4를 활용한 학습 데이터 증강
QLoRA 파인튜닝 > 학습 데이터 준비
학습 목표
GPT-4 API로 시드 데이터를 증강하는 파이프라인을 구축한다 증강 데이터의 품질을 검수하는 방법을 학습한다 비용 효율적인 증강 전략을 이해한다
GPT-4 데이터 증강
전략
- 전문가가 시드 데이터 10-20건 작성 (고품질)
- GPT-4로 각 시드를 5-10배 변형 생성
- 자동 품질 검증 + 전문가 샘플 검수
- 최종 500-2,000건 데이터셋 확보
에디터 로딩 중...
힌트 보기
- • GPT-4o가 가장 비용 효율적 (GPT-4 Turbo 대비 50% 저렴)
- • temperature=0.8로 다양성 확보 (0.5 이하면 너무 비슷한 결과)
- • 한 번에 5개씩 생성 (10개 이상은 품질 저하)
- • 증강 후 반드시 품질 검증 파이프라인 통과시킬 것
정답 보기
에디터 로딩 중...