Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Table of Contents

CEMS 분석 센터를 사용하기 위해서 몇 가지 기본 개념에 대한 사전 이해가 필요하다.

시계열 데이터, 시계열 데이터 분석과 다변량 시계열 데이터 분석

시계열 데이터는 시간의 흐름에 따라 기록된 데이터를 의미한다. 마크베이스 및 CEMS에서 취급하는 데이터는 대부분 타임스탬프와 이에 대응되는 값을 기록하므로 전형적인 시계열 데이터라고 할 수 있다.

...

일반적으로 하나의 장비 또는 환경에 여러 개의 센서가 부착되어 여러 태그의 데이터가 동시에 생산된다. 하나의 센서에 여러 개의 태그가 부탁되어 여러 종류의 데이터를 생산하는 경우도 있다. 이 경우, 단일 태그 데이터 만이 아니라 일부 혹은 모든 태그 데이터를 활용해 상황을 종합적으로 판단하고 결정을 내리기 위한 분석 방법이 필요하다. 이러한 환경을 다변량 시계열 데이터(Multivariate Time-series Data)라고 부른다.

딥러닝을 활용한 데이터 분석

전통적으로 데이터 분석에는 다양한 통계 기반 방법론들이 적용되어 왔다. 통계 분석 패키지에는 많은 통계 함수가 제공되는데, 대개의 경우, 사용자는 데이터에 대한 사전 분석을 통해 원하는 결과를 얻기 위한 통계 방법론을 선택하고, 이를 바탕으로 분석을 진행한다. 이러한 방식은 기계학습을 적용할 때에도 크게 다르지 않다. 데이터에 대한 사전 분석을 통해 가장 효과적인 특징과 모델을 선택하는 과정을 거친다. 이러한 사전 분석 과정을 탐사 분석이라고 부르기도 한다.

...

CEMS 분석 센터에서는 위에서 설명한 순환 딥러닝 모형과 생성 모형을 IoT 데이터에 적합한 형태로 구축, 사용해 다변량 시계열 데이터를 분석하고 이상을 파악한다. 이를 통해 사용자의 손을 가장 덜 타는 쉬운 방법으로 데이터를 분석해 이상 데이터를 찾아낼 수 있도록 한다.

대시보드(CEMS Dashboard)와 잡(Job)

CEMS 분석 센터는 CEMS에서 생성한 대시보드분석 대상으로 한다.

...

이와 같이 대시보드와 분석에 사용할 태그를 선택하여 생성된 모형을 잡(Job)이라고 한다. 동일한 대시보드를 사용해 잡을 생성하더라도 기저 모형, 태그를 달리 선택하거나 몇 가지 기본 파라미터를 변경하여 여러 개의 잡을 생성할 수 있다. 즉 대시보드와 잡은 1:N의 관계를 가지게 된다.

데이터 분석 모형과 분석용 데이터

CEMS 분석 센터에서 장비의 정상 유무를 판단하는데 사용하는 모형은 딥러닝 기반의 다중 시계열 데이터 검사 모형이다. 모형은 개별 태그의 정상 유무를 검사하는 단일 태그 검사 기능과 모든 태그를 종합해 판단하는 바스킷(Basket) 검사 기능을 제공한다. 모형을 생성하는 과정에서 단일 태그 검사 기능과 바스킷 검사 기능을 한 번에 학습(원샷 학습)하여 생성한다.

...

모형 생성에서 사용자가 설정 가능한 또 하나의 파라미터는 타임윈도우(Time Windows)의 크기이다. 시계열 데이터의 특성 상 과거 일정 기간의 데이터가 현재 데이터에 영향을 미치기 때문에, 학습 과정에서 일정 기간의 과거 데이터를 현재의 데이터와 함께 반영하는데, 이 시간 범위를 지정하는 파라미터이다. 모형은 최소 과거 10개 이상의 데이터 지점을 참조하므로 타임윈도우 사이즈는 데이터 주기(Summary Duration)의 설정 값에 따라 그 범위가 제한된다. 단, 일반 분석에서는 너무 큰 타임윈도우 사이즈는 지원하지 않으며, 제공되지 않는 장기간의 타임윈도우 분석이 필요한 경우는 마찬가지로 별도의 모형을 개발해 분석 센터를 통해 서비스를 받을 수 있다.

데이터의 비정상 (Anomaly)

모형은 각 시점의 데이터의 정상 유무를 검사해, 정상 범위 밖으로 벗어난 데이터를 비정상 데이터로 분류하고 이를 사용자에게 알려준다. 분석 센터에서 발생하는 비정상 데이터는 크게 두 종류로 나뉜다.

...

비정상 문턱값(threshold)의 계산은 학습 시점의 데이터를 기준으로 결정하며, 99% 아웃라이어를 비정상 데이터로 판독한다. 물론 그래프를 통해 99% 이내의 데이터 분포 상황도 눈으로 확인할 수 있다. 다만 개별 태그의 비정상은 등록된 비정상과 화면에서 보이는 비정상이 차이를 보일 수 있다. 이는 그래프 상에 표시할 때 빠른 계산을 위해 서버에서 계산하는 방법과 웹에서 계산하는 방식이 미세하게 차이가 나기 때문인데 이러한 차이와 비정상을 판단하는 방식, 계산 방식 등은 지속적으로 개선될 예정이다.

기저 모형

현재 CEMS 분석 센터에서는 다음의 기저 모형을 제공한다.

1. 재생성(Reconstruction) 모형 (또는 바스킷 디코더Basket-decoder 모형)

재생성 모형은 분석 대상의 모든 태그를 시간에 따른 순환 신경망으로 학습해 하나의 바스킷을 학습하여, 동시에 개별 태그를 전체 바스킷에 질의해 얻은 벡터를 사용해 개별 태그의 디코더를 학습한다. 이러한 특성으로 예전 버전의 CEMS 분석센터에서는 이 모형을 바스킷 디코더 모형이라고 부르기도 했다.

...

이 모형은 일반적인 시계열 특성을 가진 센서데이터에 적용 가능한 모형이다.

2. 클러스터링(Clustering) 모형

일정 수준 이상 성숙한 환경에서는 이상 상태가 거의 발생하지 않는다. 그렇기 때문에 과거의 데이터의 패턴을 분류해보면 일정한 클러스터가 구성되며, 각각의 클러스터는 대부분 정상 상태를 의미하게 된다. 여기에서 착안한 모형으로, 학습 데이터를 딥러닝 방법을 사용해 클러스터링하고, 각 클러스터를 정상 데이터가 모여 있는 곳으로 가정한다.

...