25

정규화 전략 비교: MinMax vs Standard vs Robust

Day 2: 시계열 센서 데이터 처리

학습 목표

3가지 정규화 방식의 차이를 이해한다 센서 데이터 특성에 맞는 정규화를 선택할 수 있다 sklearn으로 정규화 파이프라인을 구축할 수 있다

정규화가 중요한 이유

센서마다 스케일이 다르다. 진동: 010 mm/s, 온도: 20200도, 전류: 0~500A. 정규화 없이 모델을 학습하면 스케일이 큰 피처가 지배한다.

3가지 전략 비교

방법공식범위적합한 경우
MinMax(x-min)/(max-min)[0,1]분포 균일, 이상치 없음
Standard(x-mean)/std평균0, 분산1정규분포, 일반적
Robust(x-median)/IQR중앙0이상치 존재

아래 코드를 실행하여 차이를 확인하세요.

에디터 로딩 중...
힌트 보기
  • 센서 데이터에 이상치가 많으면 RobustScaler를 사용한다
  • MinMaxScaler는 이상치에 의해 정상 데이터가 압축된다
  • 학습 데이터의 scaler를 저장하여 테스트 데이터에도 동일하게 적용해야 한다
  • fit_transform은 학습용, transform만 테스트용