25

불균형 데이터 처리: SMOTE & Class Weights

Day 3: 고장 분류 모델

학습 목표

예지보전 데이터의 클래스 불균형 문제를 이해한다 SMOTE, Class Weights, Under-sampling 전략을 비교할 수 있다 상황에 맞는 불균형 처리 방법을 선택할 수 있다

클래스 불균형 문제

설비는 대부분 정상이고, 고장은 드물다.

에디터 로딩 중...

해결 전략 3가지

1. Class Weights (가중치)

소수 클래스의 손실에 가중치를 더 부여한다.

에디터 로딩 중...
장점단점
구현 간단최적 가중치 탐색 필요
원본 데이터 유지과적합 가능

2. SMOTE (합성 오버샘플링)

소수 클래스의 합성 샘플을 생성한다.

에디터 로딩 중...
에디터 로딩 중...
장점단점
정보 손실 없음과적합 위험 (시계열 주의)
소수 클래스 보강합성 데이터 품질

3. Under-sampling (다수 클래스 축소)

다수 클래스에서 일부만 사용한다.

에디터 로딩 중...
장점단점
빠른 학습정보 손실
균형 잡힌 데이터다수 클래스 패턴 놓침

전략 선택 가이드

상황추천 전략
데이터 충분, 불균형 심하지 않음Class Weights
소수 클래스 매우 적음 (<100건)SMOTE
데이터 매우 많고 학습 느림Under-sampling
실무 추천Class Weights + 임계값 조정

핵심: 시계열 데이터에 SMOTE를 적용할 때는 시간 순서를 무시하지 않도록 피처 레벨에서 적용한다. 원시 시퀀스에 직접 SMOTE를 쓰면 비현실적인 패턴이 생긴다.