30분

Transformer 기반 시계열 예측: Self-Attention과 Informer

Day 4: RUL 예측 (잔여수명 예측)

학습 목표

Self-Attention이 시계열 예측에 적용되는 원리를 이해한다 Informer 아키텍처의 핵심 아이디어를 파악한다 LSTM 대비 Transformer의 장단점을 비교할 수 있다

Transformer가 시계열에?

Transformer는 원래 NLP(번역)용이었지만, 시계열에서도 LSTM을 능가하는 결과를 보여주고 있다.

Self-Attention 핵심 원리

에디터 로딩 중...

Attention Score 계산

에디터 로딩 중...

Informer 아키텍처 (AAAI 2021 Best Paper)

기존 Transformer의 문제를 해결한 시계열 특화 모델.

에디터 로딩 중...

LSTM vs Transformer 비교

항목	LSTM	Transformer
장기 의존성	약함 (vanishing gradient)	강함 (direct attention)
병렬 학습	불가 (순차)	가능 (행렬 연산)
학습 속도	느림	빠름 (GPU 활용)
데이터 요구량	적음	많음
해석 가능성	낮음	높음 (attention map)
짧은 시퀀스	우수	보통
긴 시퀀스	성능 저하	우수

실무 선택 가이드

상황	추천 모델
데이터 적음 (<1만 샘플)	LSTM
시퀀스 짧음 (<50 스텝)	LSTM 또는 1D-CNN
대규모 데이터 + 긴 시퀀스	Transformer / Informer
해석 필요 (attention map)	Transformer
엣지 배포 (경량)	LSTM 또는 1D-CNN

현실: 제조 PdM에서는 데이터 규모가 크지 않아 LSTM이 여전히 실용적인 선택인 경우가 많다. Transformer는 대규모 설비군(수백 대)에서 빛을 발한다.