30분
Transformer 기반 시계열 예측: Self-Attention과 Informer
Day 4: RUL 예측 (잔여수명 예측)
Transformer 기반 시계열 예측: Self-Attention과 Informer
예지보전 — 설비 고장 예측 시스템 > Day 4: RUL 예측 (잔여수명 예측)
학습 목표
Self-Attention이 시계열 예측에 적용되는 원리를 이해한다 Informer 아키텍처의 핵심 아이디어를 파악한다 LSTM 대비 Transformer의 장단점을 비교할 수 있다
Transformer가 시계열에?
Transformer는 원래 NLP(번역)용이었지만, 시계열에서도 LSTM을 능가하는 결과를 보여주고 있다.
Self-Attention 핵심 원리
에디터 로딩 중...
Attention Score 계산
에디터 로딩 중...
Informer 아키텍처 (AAAI 2021 Best Paper)
기존 Transformer의 문제를 해결한 시계열 특화 모델.
에디터 로딩 중...
LSTM vs Transformer 비교
| 항목 | LSTM | Transformer |
|---|---|---|
| 장기 의존성 | 약함 (vanishing gradient) | 강함 (direct attention) |
| 병렬 학습 | 불가 (순차) | 가능 (행렬 연산) |
| 학습 속도 | 느림 | 빠름 (GPU 활용) |
| 데이터 요구량 | 적음 | 많음 |
| 해석 가능성 | 낮음 | 높음 (attention map) |
| 짧은 시퀀스 | 우수 | 보통 |
| 긴 시퀀스 | 성능 저하 | 우수 |
실무 선택 가이드
| 상황 | 추천 모델 |
|---|---|
| 데이터 적음 (<1만 샘플) | LSTM |
| 시퀀스 짧음 (<50 스텝) | LSTM 또는 1D-CNN |
| 대규모 데이터 + 긴 시퀀스 | Transformer / Informer |
| 해석 필요 (attention map) | Transformer |
| 엣지 배포 (경량) | LSTM 또는 1D-CNN |
현실: 제조 PdM에서는 데이터 규모가 크지 않아 LSTM이 여전히 실용적인 선택인 경우가 많다. Transformer는 대규모 설비군(수백 대)에서 빛을 발한다.