잡 생성 및 수정
분석할 모형을 생성하는 잡 생성은 다음과 같은 단계로 이루어진다. 잡 수정은 첫번째 단계를 제외하고 잡 생성과 동일하다.
1. 분석 대상 선택
잡 목록보기 화면에서 우상단의 Create Job 버튼을 클릭해 신규 잡을 생성하는 화면으로 진입한다. 잡을 생성하는 첫 번째 단계는 잡이 대상으로 하는 대시보드를 선택하는 단계이다.
대시보드를 선택하면 이어지는 화면에서 대시보드에 포함된 태그의 기본 정보와 함께 잡을 생성할 수 있다.
2. 잡 기본 정보 입력
이전 단계에서 대시보드를 선택했지만, 만약 실수로 잘못 선택했다면 드랍다운 컨트롤을 통해 새로운 대시보드를 선택하여 변경할 수 있다. 이때 왼족의 대시보드 아이콘을 클릭하면 선택한 대시보드를 새 창에서 확인할 수 있다. 대시보드 이름은 중복이 가능하므로, 이를 식별하는데 어려움을 겪을 수 있다. 그러므로 대시보드 선택에서 표현되는 디스플레이 네임은 보드이름과 CEMS에서 관리하는 보드 ID를 함께 보여준다.
잡 이름은 기억하기 쉽고 구분하기 쉬운 이름을 추천한다. 잡 이름도 중복이 가능하므로 이 점을 염두에 두고 결정하는 것이 바람직하다.
3. 기저 모형의 선택
적용하고자 하는 기저 모형을 선택한다. CEMS 분석 센터에서는 Reconstruction(재생성) 모형과 Clustering(클러스터링) 모형, 2종을 기저 모형으로 제공한다. 각 모형의 특징은 본 매뉴얼의 분석 센터의 기본 개념 또는 모델 선택 드랍다운 컨트롤의 오른쪽 아이콘을 클릭해 확인할 수 있다. 오른쪽 아이콘은 모형의 특징 뿐 아니라 모형을 만드는 방법에 대한 기본적인 가이드도 제공한다.
4. 학습 데이터 구간 선택
최대 90일 간의 최근 데이터를 학습에 사용하지만, 장애로 인해 결측치가 발생하였거나 정상 상황이 아닌 노이즈가 심한 구간이 있는 경우 등, 학습 데이터의 구간을 선택해야 할 때가 있다.
그림과 같은 컨트롤을 조작하여 학습에 사용할 데이터의 구간을 선택할 수 있다. 전체 데이터가 기본값으로 선택되어 있으며, 컨트롤을 조작하면 아래의 각 태그 별 차트에 선택한 구간이 표시된다.
5. 태그 확인 및 설정
대시보드를 선택하면, 대시보드에 포함된 태그의 몇 가지 정보를 태그 별로 보여준다. 제공되는 정보는 다음과 같다.
태그의 최대 최근 90일간의 산포도 (단, 데이터가 많은 경우 사용자 브라우저가 메모리를 과다하게 점유하므로 일정 주기의 평균치를 보여준다. 집계 간격은 데이터 발생 기간에 따라 달라진다.)
최근 90일 간의 전체 데이터 개수
데이터 발생 기간 (데이터 최초 수집 시점에서 현재까지의 기간을 일단위로 보여주며, 이 기간이 90일을 초과할 경우 90일로 표기한다.)
최근 90일 간의 평균값, 최대값, 최소값
선택된 학습 데이터 구간 정보
각 태그의 오른쪽에는 다음에 관한 정보를 입력받는다.
Data per Hour : 시간 당 발생하는 데이터의 양으로, 지금까지 수집된 데이터를 통해 추정한 값을 임시로 제시하며, 이 값은 센서의 사양에 맞춰 사용자가 수정 가능하다.
Putting this tag in the basket - 이 태그를 분석에 참여시킬지 여부를 선택할 수 있다. 만약 분석에 들어가기 적절하지 않은 태그라면 해당 태그는 제외시켜야 더 정확한 결과를 얻을 수 있다.
Detecting anomaly using this tag - 바스킷에 추가한 태그에 한하여 단일 태그의 비정상 여부를 검사할 수 있다. 이 항목을 선택 해제하면 해당 태그는 단일 태그 검사는 시행하지 않지만, 바스킷에 추가되어 있다면 모형에 전체적으로 영향을 미칠 수는 있다.
‘Putting this tag in the basket’ 항목을 선택하지 않으면 ‘Detecting anomaly using this tag’ 항목도 선택할 수 없다.
6. 모델 파라미터 입력
잡 생성/수정 화면의 제일 하단에 모델 단위로 적용되는 두 가지 파라미터를 입력해야 한다.
Summary Duration은 데이터를 얼마 주기로 요약해 분석할 지를 정하는 값이다. 예를 들어 이 값을 20초로 설정하면, 데이터를 매 20초 간격으로 평균값을 구해서 학습하고, 검사를 진행한다. 입력 유효 범위는 태그 데이터의 발생 상황에 맞추어 결정되며, 일반 분석에서는 이 범위를 벗어난 값을 입력하거나 적용할 수 없다. 단위는 초 단위이다.
Time Window는 시계열 분석을 위해서 한 번의 데이터셋을 몇 분간의 데이터의 시퀀스로 구성할 지를 정하는 값이다. 이 값은 Summary Duration에 입력한 값을 기준으로 적정 길이의 시퀀스를 구성할 수 있도록 유효 입력 범위를 제한한다. 일반 분석에서는 이 범위를 벗어난 값을 입력하거나 적용할 수 없다. 입력 단위는 분단위이다.
Time Window의 값을 증가시키면 조금 더 긴 범위의 추세를 사용해 모형을 구성할 수 있다. 대신 순간 순간의 값의 변화에 대한 민감도는 줄어든다. 반대로 Time Window를 짧게 가져가면 추세보다는 순간순간의 데이터에 민감해지고, 이로 인해 노이즈로 인한 이상 데이터의 양이 증가하게 된다.
경우에 따라 더 짧은 주기의 데이터 요약 혹은 더 긴 시퀀스를 사용한 모델의 구성이 필요한 경우가 있다. CEMS 분석 센터에서 적용할 수 있는 값을 벗어난 모델이 필요한 경우 CEMS On-demand 분석을 요청하면, 고객의 요구에 맞는 모형을 별도로 제작해 CEMS 분석센터를 통해 서비스를 받을 수 있다.
잡 생성 페이지의 최하단에는 고급 모델 설정 기능을 제공한다. 기저모델 별로 상이한 설정 인터페이스가 제공되는데, 현재로서는 실험적 기능이며, 향후 유효성 검사 등의 기능을 강화해 안정적으로 서비스가 가능하도록 변경할 예정이다. 딥러닝에 익숙한 엔지니어만 사용하기를 권장한다.
7. 생성 마무리
전자우편 주소를 입력받는다. 이 주소로는 학습종료알람, 이상 데이터 발생 알람 메일이 전송된다. 단, 이상 데이터 발생 알람 메일은 이 기능을 활성화해야 한다. 활성화 방법은 입력할 때 체크박스를 선택하거나, 뷰 보기 화면에서 활성화 여부를 선택할 수 있다.
마지막으로 Save 버튼을 눌러서 잡을 입시로 저장하거나, Training 버튼을 눌려 잡 생성을 완료하고 학습 단계로 넘어간다. 임시로 저장한 잡은 초기 화면에서 수정 아이콘을 클릭해 잡을 완성할 수 있다.