25분
불균형 데이터 처리: SMOTE & Class Weights
Day 3: 고장 분류 모델
불균형 데이터 처리: SMOTE & Class Weights
예지보전 — 설비 고장 예측 시스템 > Day 3: 고장 분류 모델
학습 목표
예지보전 데이터의 클래스 불균형 문제를 이해한다 SMOTE, Class Weights, Under-sampling 전략을 비교할 수 있다 상황에 맞는 불균형 처리 방법을 선택할 수 있다
클래스 불균형 문제
설비는 대부분 정상이고, 고장은 드물다.
에디터 로딩 중...
해결 전략 3가지
1. Class Weights (가중치)
소수 클래스의 손실에 가중치를 더 부여한다.
에디터 로딩 중...
| 장점 | 단점 |
|---|---|
| 구현 간단 | 최적 가중치 탐색 필요 |
| 원본 데이터 유지 | 과적합 가능 |
2. SMOTE (합성 오버샘플링)
소수 클래스의 합성 샘플을 생성한다.
에디터 로딩 중...
에디터 로딩 중...
| 장점 | 단점 |
|---|---|
| 정보 손실 없음 | 과적합 위험 (시계열 주의) |
| 소수 클래스 보강 | 합성 데이터 품질 |
3. Under-sampling (다수 클래스 축소)
다수 클래스에서 일부만 사용한다.
에디터 로딩 중...
| 장점 | 단점 |
|---|---|
| 빠른 학습 | 정보 손실 |
| 균형 잡힌 데이터 | 다수 클래스 패턴 놓침 |
전략 선택 가이드
| 상황 | 추천 전략 |
|---|---|
| 데이터 충분, 불균형 심하지 않음 | Class Weights |
| 소수 클래스 매우 적음 (<100건) | SMOTE |
| 데이터 매우 많고 학습 느림 | Under-sampling |
| 실무 추천 | Class Weights + 임계값 조정 |
핵심: 시계열 데이터에 SMOTE를 적용할 때는 시간 순서를 무시하지 않도록 피처 레벨에서 적용한다. 원시 시퀀스에 직접 SMOTE를 쓰면 비현실적인 패턴이 생긴다.