Table of Contents | ||||
---|---|---|---|---|
|
CEMS 분석 센터를 사용하기 위해서 몇 가지 기본 개념에 대한 사전 이해가 필요하다.
...
비정상 문턱값(threshold)의 계산은 학습 시점의 데이터를 기준으로 결정하며, 99% 아웃라이어를 비정상 데이터로 판독한다. 물론 그래프를 통해 99% 이내의 데이터 분포 상황도 눈으로 확인할 수 있다. 다만 개별 태그의 비정상은 등록된 비정상과 화면에서 보이는 비정상이 차이를 보일 수 있다. 이는 그래프 상에 표시할 때 빠른 계산을 위해 서버에서 계산하는 방법과 웹에서 계산하는 방식이 미세하게 차이가 나기 때문인데 이러한 차이와 비정상을 판단하는 방식, 계산 방식 등은 지속적으로 개선될 예정이다.
비정상 지표 (Anomaly Percentile과 Anomaly Score)
CEMS 분석센터에서 비정상 수준을 계량화하기 위해서 두 가지 지표를 사용하며, 이 지표를 사용해 비정상의 정도를 알려준다. 첫 번째 지표는 Anomaly Percentile이다. 이 지표는 매우 직관적인 지표로, 데이터가 정상으로부터 얼마나 떨어져 있는지를 100분위 단위의 값으로 보여준다. 이 값이 99라면, 이 데이터는 100개의 검사 데이터중 99등 수준으로 바깥에 분포해 있다는 의미이다. 만약 학습 데이터를 기준으로 1천번에 한번 꼴로 발생하는 비정상을 비정상의 문턱값으로 삼겠다면, Percentail 기준으로 99.9를 문턱값으로 정하면 된다.
하지만 이러한 직관적인 지표는 실제 이상 상황을 확인하고, 이상 수준을 확인하는데는 적절하지 않다. 데이터를 관찰하는 입장에서는 정상 범위 내의 50%의 변화보다 비정상 범위 부근의 0.1%에 훨씬 민감하게 된다. 즉 99.9를 문턱값으로 삼은 경우 시각화된 차트에서 99에서 100으로 변화하는 과정을 잘 인지할 수 있어야 하지만, 100분위 구간을 선형으로 표현하면 이 과정을 차트 상에서 육안으로 확인하는 것이 거의 불가능하다.
그리하여 두 번째 지표인 Anomaly Score 개념을 도입하였다. 이 Anomaly Score는 Anomaly Percentile이 5 증가하면 Anomaly Score는 2배가 되도록 설계되었다. 즉 100분위 상에서 5분위 만큼 이상도가 증가하면 Anomaly Score는 2배가 된다는 의미가 된다.
다음 표는 두 지표의 서로 대응되는 값을 보여준다.
지표 | 값 | |||||
---|---|---|---|---|---|---|
Anomaly Percentile | 90 | 95 | 99 | 99.9 | 99.99 | 100 |
Anomaly Score | 25 | 50 | 87.0551 | 98.6233 | 99.8615 | 100 |
표에서 알 수 있듯 Anomaly Score를 사용하면 고위험영역에서 위험도의 증감을 더 쉽게 살필 수 있다.
CEMS 분석 센터의 모니터링 차트에서는 이상 판정 문턱값을 Percentile로 설정하고, Percentile와 Score 모두를 설정에 따라 가시화할 수 있는 기능을 제공하고 있다.
기저 모형
현재 CEMS 분석 센터에서는 다음의 기저 모형을 제공한다.
...
이후 검사 시점의 개별 데이터를 가장 가까운 클러스터와의 거리를 측정해, 이 거리가 학습 데이터의 분포 상에서 99% 문턱값(threshold) 밖의 아웃라이어로 분류되면, 이를 이상 데이터로 판정한다.
이 모형은 충분히 성숙되어 안정된 데이터 환경에서 적용 가능한 모형이다.
커스텀 모형 (Custom Model)
CEMS 분석센터에서는 주어진 데이터와 주어진 기저 모형을 사용해 모형을 자동으로 학습하고, 검사 결과를 실시간으로 모니터링하거나 특정 이상 상황의 데이터를 들여다 볼 수 있다. 하지만 이러한 프로세스가 항상 효과적이지 않다. 이러한 상황은 다양한 경우에서 발생할 수 있지만 대표적인 경우는 다음과 같다.
제공되는 모형을 사용할 수 없는 경우 - 데이터의 특성이 제공되는 모형과 맞지 않아서 다른 모형을 사용해야 하는 경우
제공되는 모형의 설정이 충분하지 않은 경우 - CEMS 분석센터는 데이터의 특성과 CEMS 컴퓨팅 자원 등을 고려해 모형 설정에 제약이 존재하며, 이러한 제약으로 인한 검사 성능이 불충분한 경우
학습 데이터를 CEMS를 통해 제공할 수 없는 경우 - 새롭게 발생되는 데이터는 CEMS를 통해 수집, 가시화되지만 학습을 위한 과거 데이터를 CEMS에 적재하기 부적합한 경우
위에서 나열한 사례 등의 이유로 모형을 CEMS 분석센터를 통해 만들기 어려운 경우가 있다. 이 경우 CEMS 분석센터에서 사용하는 모형과 인터페이스는 호환되는 딥러닝 이상감지 모형을 별도로 제작해 CEMS 분석센터의 검사 환경을 통해 검사할 수 있는 기능을 제공한다. 이와 같이 별도로 구축된 모형을 커스텀 모형(Custom Model)이라고 부른다.
커스텀 모형은 일반 CEMS 모형과 달리 CEMS 분석센터를 통한 생성 및 수정을 지원하지 않으며, 나머지 사항은 동일하게 동작한다. 커스텀 모형을 사용하려면 별도 요청을 통한 절차가 필요하며, 마크베이스의 데이터 엔지니어가 모델생성, 테스트 및 업로드를 진행하게 된다.