50분
실습: 학습 데이터 품질 검증 파이프라인
학습 데이터 준비
실습: 학습 데이터 품질 검증 파이프라인
QLoRA 파인튜닝 > 학습 데이터 준비
학습 목표
학습 데이터의 품질을 자동으로 검증하는 파이프라인을 구축한다 중복 제거, 길이 검증, 형식 검증을 구현한다 토큰 수 분포를 분석하고 최적 max_length를 결정한다
학습 데이터 품질 검증
검증 항목
- 형식 검증 (필수 필드 존재 여부)
- 길이 검증 (너무 짧거나 긴 데이터 필터링)
- 중복 검증 (완전 중복 + 유사 중복)
- 내용 검증 (빈 값, 특수 문자 오류)
- 토큰 수 분석 (max_length 결정)
에디터 로딩 중...
힌트 보기
- • validate_format: instruction과 output 필드 존재 여부만 확인
- • remove_duplicates: instruction을 소문자로 변환 후 set으로 비교
- • validate_content: lazy_patterns 리스트의 패턴이 포함된 짧은 답변 필터링
정답 보기
에디터 로딩 중...