Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

하지만, 다루는 데이터의 양이 증가하고 특성이 복잡해짐에 복잡해지고, 동시에 분석해야 하는 데이터의 개수가 많아짐에 따라 데이터 탐사 분석 단계의 난이도가 올라간다. 특히 데이터에 내재된 의미를 찾아내기 위한 기계 학습에서는 이러한 내재된 의미를 잘 선택할 수 있는 깊은 특징을 선택해야 하지만, 기존 탐사 분석 방법으로는 쉽지 않았다.

딥러닝은 이러한 전통적인 데이터 분석 방법의 한계를 극복하기 위해 제시된 방법이다. 딥러닝은 특징 선택 과정도 학습의 일부로 포함시킨다. 예를 들어 이미지 분석에 주로 사용되는 CNN(Convolutional Neural Network) 방법론에서는 이미지 픽셀의 주변 픽셀과의 관계에서 이미지에 포함된 원시 특징(Privimitive Feature)를 학습을 통해 자동으로 선택할 수 있다. 이와 유사하게 시계열 데이터에서는 대표적으로 순환 신경망 네트워크(RNN(, Recurrent Neural Network) 방법론과 그 변형 방법론이 이러한 역할을 한다.

시계열 데이터에서 값은 시간의 종속 변수이다. 그러므로 현재의 값 뿐 아니라 과거에서 현재로 데이터가 어떻게 변화하고 있는지를 특징에 반영시켜야 한다. 이를 위해서 RNN은 모델의 각 셀의 결과의 입력으로 새로운 현재의 값 뿐 아니라 과거 셀의 결과값을 순환적으로(Recurrent) 함께 입력받아서 일정한 시간 간격의 값으로 모델을 학습시킨다. 이러한 간단한 아이디어를 통해 데이터의 시퀀스를 벡터 형태로 표현하고, 이 벡터를 학습한 모델 공간(Embedding Space)을 학습을 통해 생성하게 된다.

검사할 때는 이 모델 공간에 적절한 방식으로 질의를 해 과거 일정 기간의 데이터를 입력했을 때 가장 자연스러운 시퀀스를 생성해낸다. 이 시퀀스와 실제 데이터 상의 시퀀스를 비교해 일정 기준 이상의 차이가 발생하면 모델은 이를 비정상으로 판단하게 된다.

분석 센터에서는 위에서 설명한 순환 딥러닝 모형과 생성 모형을 IoT 데이터에 적합한 형태로 구축, 사용해 다변량 시계열데이터를 분석하고 이상을 파악한다.

  • 대시보드(CEMS Dashboard)와 잡(Job)

...