50

실습: GPT-4를 활용한 학습 데이터 증강

학습 데이터 준비

학습 목표

GPT-4 API로 시드 데이터를 증강하는 파이프라인을 구축한다 증강 데이터의 품질을 검수하는 방법을 학습한다 비용 효율적인 증강 전략을 이해한다

GPT-4 데이터 증강

전략

  1. 전문가가 시드 데이터 10-20건 작성 (고품질)
  2. GPT-4로 각 시드를 5-10배 변형 생성
  3. 자동 품질 검증 + 전문가 샘플 검수
  4. 최종 500-2,000건 데이터셋 확보
에디터 로딩 중...
힌트 보기
  • GPT-4o가 가장 비용 효율적 (GPT-4 Turbo 대비 50% 저렴)
  • temperature=0.8로 다양성 확보 (0.5 이하면 너무 비슷한 결과)
  • 한 번에 5개씩 생성 (10개 이상은 품질 저하)
  • 증강 후 반드시 품질 검증 파이프라인 통과시킬 것
정답 보기
에디터 로딩 중...