Deep Learning/Anomaly Detection

[Paper Review] Time Series Anomaly Detection using Temporal Hierarchical One-Class (THOC) Network

sdbeans 2022. 1. 23. 17:03

Time Series Anomaly Detection using Temporal Hierarchical One-Class (THOC) Network

Abstract: https://proceedings.neurips.cc/paper/2020/hash/97e401a02082021fd24957f852e0e475-Abstract.html

Summary

  • dilated recurrent neural network (RNN)을 사용하며, multiple time scale temporal feature들을 timeseries에서 extract한다.
  • 다음으로, THOC는 모든 layer의 feature들을 fuse 한다. 각 resolution에서의 정상 데이터는 multiple hypersphere들로 표현된다. Multiscale support vector data description (MVDD)를 사용하여 end-to-end 훈련을 진행한다.
    • MVDD는 one-class objective이며, fuse된 feature들과 hypersphere의 중심간의 차이를 나타낸다.
  • 마지막으로, 현재 observation과 정상 데이터를 표현한 hypersphere들을 비교하는 점수를 사용하여 비정상 탐지를 한다.

 

How does the model function?

Extract Multiscale Temporal Features:

  • number of layers = L
  • use dilated recurrent neural network with multi-resolution recurrent skip connections
    • skip connections help to model long-term dependencies of time-series AND improve vanishing gradient problem
  • At any layer, the hidden state of the recurrent cell is any RNN cell with a feature at current time t from the previous layer and another feature as the input for skip connect with skip length s.
  • multiple layer들을 통해 다양한 multiscale temporal feature들을 추출할 수 있다
  • lower layer에서는 short-term info, upper layer에서는 long-term info를 학습한다

Fusing the Multiscale Features:

  • two-step action - assignment and update
  • 다른 scale의 info를 fuse하는 differentiable hierarchical clustering procedure
  • “At time t, the inputs to this layer are the outputs from the previous layer.”
  • Step 1 - Assignment:
    • 이전 layer의 output인 fused feature들과 각 center의 공통점을 확인하여 확률을 사용하여 현 layer의 fused feature들을 assign한다
    • Probability:
    • score는 similarity score function을 사용하는데, 이 paper는 simple cosine similarity를 사용한다
  • Step 2 - Update:
    • assigned된 확률을 찾은 후, lower level의 모든 feature들을 fuse한 후 각 cluster에서 transform 된다
    • after fusion:
    • output of each layer:

Multiscale Support Vector Data Description (MVDD):

THOC Loss
R term in THOC Loss (obtained by softmax over all centers in that layer)
Orthogonal Loss (allows centers in each layer to be diverse)
Temporal Self-Supervision Loss (prediction for self-supervised learning task. learns useful features in all layers)
MVDD Objective (lambda variables are tradeoff hyperparameters)

THOC Algorithm

Anomaly Score (from THOC objective)

Compare the anomaly score with a predefined threshold. If score is larger than threshold, then it is anomaly, elsewise normal.

Results

  • general multivariate data를 위한 anomaly detector는 time-series data에서 performance가 좋지 않았다
  • deep generative model을 기반한 time-series anomaly detector들도 큰 improvement를 보이지 않았다
  • 최근 model인 MSCRED와 CVDD는 그나마 performance가 좋았다. 하지만, MSCRED는 dimension간의 covariance를 위주로 계산하고, dimension간의 linear dependency를 측정한다. 따라서 linear하지 않다면 문제가 생길 수 있다. 또한, CVDD는 hypersphere들이 단 하나의 layer에 모두 있어 multiscale temporal 특징들을 잡아낼 수 없다.
  • THOC는 이 paper에서 사용한 모든 data set에서 우수성을 보여주었다. 여러개의 hypersphere가 hierarchical structure로 이루어져있기에 효과적으로 multiscale temporal 특징을 fuse하여 복잡한 time-series data의 특징들을 사용한다.
  • 아래 figure 2에서 다른 data set을 사용해보아도 THOC의 F1 score가 가장 높을 걸 볼 수 있다.