...
시계열 데이터는 시간의 흐름에 따라 기록된 데이터를 의미한다. 마크베이스 및 CEMS에서 취급하는 데이터는 대부분 타임스탬프와 이에 대응되는 값을 기록하므로 전형적인 시계열 데이터라고 할 수 있다.
세상에서 발생하는 대부분의 데이터는 특정 시간의 시간에 대응되는 값으로 정의할 수 있다. 이 중에서 데이터가 일정 주기 혹은 정해진 패턴의 형태로 발생하며, 이전 타임스탬프의 값이 다음 타임스탬프의 값에 영향을 마치고, 시간에 따른 데이터의 변화에 어느 정도의 정상성(Stationarity)과 주기성(Periodicity)이 있는 경우, 이러한 특성을 이용하여 데이터를 분석할 분석 또는 예측할 수 있으며, 이를 시계열 데이터 분석이라고 부른다. 위에서 언급한 특징이 없거나 희박한 경우, 시계열 데이터 분석 방법보다 일반 데이터 분석 방법이 효과적일 수 있다.
...
일반적으로 하나의 장비 또는 환경에 여러 개의 센서가 부착되어 여러 태그의 데이터가 동시에 생산된다. 하나의 센서에 여러 개의 태그가 부탁되어 여러 종류의 데이터를 생산하는 경우도 있다. 이 경우, 단일 태그 데이터만이 데이터 만이 아니라 일부 혹은 모든 태그 데이터를 활용해 상황을 종합적으로 판단하고 결정을 내리기 위한 분석 방법이 필요하다. 이러한 환경을 다변량 시계열 데이터(Multivariate Time-series Data)라고 부른다.
...
하지만, 다루는 데이터의 양이 증가하고 특성이 복잡해지며 동시에 분석해야 하는 데이터의 개수가 많아짐에 따라 데이터 탐사 분석의 난이도가 올라간다. 특히 데이터에 내재된 의미를 찾아내기 위한 기계 학습에서는 기계학습에서는 이러한 의미를 잘 표현할 수 있는 깊은 특징을 선택해야 하는데, 기존 탐사 분석 방법으로는 쉽지 않다. 또한 다변량 시계열 데이터를 분석하기 위해서는 탐사 분석 단계에서 다차원 분석 및 시각화가 적용되어야 하는데, 인간의 인지 능력 상 이를 처리하는데 어려움이 있다.
...
만약 ‘습도’, ‘일조량’의 두 태그 데이터를 활용해 모형을 생성하고자 한다면, 두 태그를 사용하는 대쉬보드가 대시보드가 없으므로 이 두 태그를 포함하는 대시보드를 새로 생성해야 한다. 이에 반해, ‘온도’, ‘습도’ 두 태그 데이터로 모형을 생성하고자 한다면 대시보드를 별도로 생성할 필요가 없으며, 모형을 생성할 때 ‘강수량’ 태그 데이터를 학습 데이터에서 제외하면 된다.
...
현재 CEMS 분석 센터에서는 다음의 기저 모형을 제공한다.
...
1. 재생성(Reconstruction) 모형 (또는 바스킷 디코더Basket-decoder 모형)
...
바스킷 디코더 재생성 모형은 분석 대상의 모든 태그를 시간에 따른 순환 신경망으로 학습해 하나의 바스킷을 학습하여, 동시에 개별 태그를 전체 바스킷에 질의해 얻은 벡터를 사용해 개별 태그의 디코더를 학습한다. 이러한 특성으로 예전 버전의 CEMS 분석센터에서는 이 모형을 바스킷 디코더 모형이라고 부르기도 했다.
바스킷은 모든 태그 데이터를 종합한 비정상 점수를 계산하는데 사용되며, 개별 태그의 디코더는 입력된 개별 태그의 시퀀스를 바탕으로 학습된 시퀀스를 재현하여(Auto-encoder) 입력 태그와의 거리에 기반한 비정상 점수를 계산한다.
2. 클러스터링(Clustering) 모형
일정 수준 이상 성숙한 환경에서는 이상 상태가 거의 발생하지 않는다. 그렇기 때문에 과거의 데이터의 패턴을 분류해보면 일정한 클러스터가 구성되며, 각각의 클러스터는 대부분 정상 상태를 의미하게 된다. 여기에서 착안한 모형으로, 학습 데이터를 딥러닝 방법을 사용해 클러스터링하고, 각 클러스터를 정상 데이터가 모여 있는 곳으로 가정한다.
이후 검사 시점의 개별 데이터를 가장 가까운 클러스터와의 거리를 측정해, 이 거리가 학습 데이터의 분포 상에서 99% 밖의 아웃라이어로 분류되면, 이를 이상 데이터로 판정한다.
이 모형은 충분히 성숙되어 안정된 데이터 환경에서 적용 가능한 모형이다.