30

Transformer 기반 시계열 예측: Self-Attention과 Informer

Day 4: RUL 예측 (잔여수명 예측)

학습 목표

Self-Attention이 시계열 예측에 적용되는 원리를 이해한다 Informer 아키텍처의 핵심 아이디어를 파악한다 LSTM 대비 Transformer의 장단점을 비교할 수 있다

Transformer가 시계열에?

Transformer는 원래 NLP(번역)용이었지만, 시계열에서도 LSTM을 능가하는 결과를 보여주고 있다.


Self-Attention 핵심 원리

에디터 로딩 중...

Attention Score 계산

에디터 로딩 중...

Informer 아키텍처 (AAAI 2021 Best Paper)

기존 Transformer의 문제를 해결한 시계열 특화 모델.

에디터 로딩 중...

LSTM vs Transformer 비교

항목LSTMTransformer
장기 의존성약함 (vanishing gradient)강함 (direct attention)
병렬 학습불가 (순차)가능 (행렬 연산)
학습 속도느림빠름 (GPU 활용)
데이터 요구량적음많음
해석 가능성낮음높음 (attention map)
짧은 시퀀스우수보통
긴 시퀀스성능 저하우수

실무 선택 가이드

상황추천 모델
데이터 적음 (<1만 샘플)LSTM
시퀀스 짧음 (<50 스텝)LSTM 또는 1D-CNN
대규모 데이터 + 긴 시퀀스Transformer / Informer
해석 필요 (attention map)Transformer
엣지 배포 (경량)LSTM 또는 1D-CNN

현실: 제조 PdM에서는 데이터 규모가 크지 않아 LSTM이 여전히 실용적인 선택인 경우가 많다. Transformer는 대규모 설비군(수백 대)에서 빛을 발한다.