결함 탐지 및 우선 순위 화에 대한 통계적 접근


4

우리 회사는 100,000 개 이상의 통신 장치를 배치했습니다. 우리는 장치에서 고장 정보를 수집합니다. 각 장치에 대해 시간당 두 가지 유형의 데이터 실패 횟수가 있으며이를 사용하여 오류 비율을 계산합니다. 우리는 시스템을보다 잘 관리하는 데 도움이되는 프로 액티브 모니터링 시스템을 개발 중입니다. 문제 중 하나는 실패 횟수 또는 실패 비율을 사용하여 장치에 우선 순위를 지정하는 것입니다. 카운트와 백분율을 모두 사용하여 우선 순위 목록을 만드는 데 도움이되는 통계적 또는 수학적 이론이 있습니까?

편집 1 : 모든 장치가 동일하지 않습니다. 그러나이 과정에서 우리는 같은 것으로 간주 할 것입니다. 우수한 시스템 성능을 얻으려면 문제 해결의 우선 순위를 정해야합니다.


모든 장치가 동일합니까? 정보를 카테고리에 넣을 수있을만큼 충분한 정보가 있습니까?
hazzey

답변:


1

당신이 생각하고있는 것은 시스템 안정성 문제입니다. 귀하의 설명에서 본인의 인상은 이러한 장치들이 연결되거나 연결되지 않을 수 있으며, 네트워크를 형성하고 전체 시스템의 작동 신뢰성을 향상 시키려고한다는 것입니다.

시스템 신뢰성

시스템의 한 부분의 안정성이 시스템 내의 다른 경로의 안정성에 영향을 미칠 수 있기 때문에 원하는 솔루션이 복잡합니다. 따라서 개별 구성 요소의 신뢰성을 확인하는 것 외에도 네트워크 연결 방법을 식별해야합니다. 여기서 이벤트는 상호 배타적이며, 통신 흐름은 순차적이며, 병렬로있을 수 있습니다. 물론이 네트워크 구조를 제어 할 수 있다면 (예 : 시스템 내에서 데이터 라우팅을 리디렉션 할 수 있음), 개방 포럼의 목표 중 하나 인 네트워크를 최적화 할 수 있습니다.

다음 중요한 사항은 장치의 고장 확률이 다른 모든 장치와 독립적인지 여부를 확인하는 것입니다. 장치의 신뢰성이 주위의 장치 또는 장치에 영향을 받는지 여부를 결정할 수 있습니다. 그렇다면 분석의 수학에 상당한 영향을 미칩니다.

모든 사건이 독립적이라면 고전적 확률 법칙을 계산에 적용 할 수 있습니다. 그러나 이들이 독립적이지 않은 경우 조건부 확률을 적용해야합니다. 베이 즈 정리 . 컴퓨터를 사용하여, 행동을 모델링하기 위해 각 요소에 확률 변수 (확률 질량 또는 밀도 함수)를 할당함으로써 brute-force Monte Carlo 방법을 적용하는 것이 타당합니다. 이 유형의 분석에 널리 사용되는 도메인 특정 언어는 R 언어 .

예를 들어, 아래에서 빌린 사례를 Hahn and Shapiro, 공학의 통계 모델 :

System Analysis

우리는 전체 시스템의 신뢰성 ($ S $)을 결정 짓는 세 단계 ($ S_1 $, $ S_2 $, $ S_3 $)를 검토 할 것입니다. 벤 다이어그램을 만들면 다이어그램의 세 부분이 겹치는 부분, 즉 교차 부분을 찾습니다. 우리는 다음과 같이 행동하도록 이러한 단계를 정의합니다.

  • 스테이지 1 : 이벤트 상호 배타적이지 않지만 독립적이다. . 생존은 A 및 / 또는 B.의 생존율에 달려 있습니다.
  • 2 단계 : 생존은 C의 생존에만 달려 있습니다.
  • 3 단계 : 이벤트 상호 배타적이지 않지만 독립적이다. . 생존은 D 및 / 또는 E 및 / 또는 F.의 생존에 달려있다.

이벤트가 병렬로 작동하는 경우 상호 배타적이지 않지만 독립적이다. , 집단 생존은 다음에 따라 계산됩니다 :

$$ Pr = \ bigcup Pr_i = 1 - \ prod (1 - Pr_i) $$

위의 다이어그램과 수식을 통해 전체 시스템 안정성을 결정할 수 있습니다.

$$ Pr_S = Pr_1 \ times Pr_2 \ times Pr_3 $$ $$ Pr_1 = 1 - (1 - 0.9) \ times (1 - 0.8) = 0.98 $$ $$ Pr_2 = Pr_C = 0.95 $$ $$ Pr_3 = 1 - (1 - 0.9) \ times (1 - 0.9) \ times (1 - 0.5) = 0.995 $$ $$ Pr_S = 0.98 \ times 0.95 \ times 0.995 = 0.926 $$

따라서 위의 시스템에서 생존 할 확률은 0.926입니다.

분석 요소 독립적이지 않다. , 조건부 확률의 영역에 들어가고 베이 즈 정리 적용해야합니다. 예를 들어, B의 신뢰도가 A의 신뢰도에 좌우되는 경우, 주어진 이벤트 B의 확률은 다음과 같습니다.

$$ Pr (B \ mid A) = \ frac {Pr (AB)} {Pr (A)} $$

이것은 베이 즈의 정리를 생성하기 위해 일반화 될 수있다.

Pr (A_i) \ times \ frac {Pr (B \ mid A_i)} {\ sum Pr (B \ mid A_i) \ times Pr (A_i)} $$

여기서 $ rhs $ term $ Pr (A_i) $는 종종 사전 확률 나머지 부분 항은 더 많은 실험 데이터가 얻어지면 사전 확률이 업데이트되는 요인입니다. 예를 들어 더 많은 데이터를 얻을 때까지 사용자의 신념이나 경험을 토대로 특정 제조업체의 장치에 사전 확률을 지정할 수 있습니다.

몬테 카를로

위의 분석은 전체 시스템에 대한 단일 대답을 산출합니다. 대신 확률 밀도 함수로서 가능한 결과의 범위를 개발하는 것을 선호 할 수 있습니다. 이것이 요구된다면 분석에 단일 신뢰도 값을 적용하는 대신 (예에서와 같이) 밀도 (연속) 또는 질량 (이산) 함수로 표현 된 확률 변수가 지정됩니다.

무작위 변수는 의사 난수 생성기를 사용하여 많은 수의 컴퓨터 시뮬레이션을 실행하여 불안정합니다. 각각의 시뮬레이션을 포착하고 결과 모음을 사용하여 시스템 신뢰성을위한 전체 확률 밀도 함수를 개발합니다. 이렇게하면 이전 시나리오에서 수행 할 수없는 주요 요인으로 분산을 볼 수 있다는 점에서 시스템을보다 잘 설계 할 수 있습니다.

관심의 대상이되는 확률 변수에 대한 올바른 표현의 선택은 매우 중요합니다. 일반적으로 사용되는 정규 분포 (가우스 분포)는 음수 값을 결과로 허용한다는 점에서 적절하지 않을 수 있습니다. 대신 변수는 다음 형식과 일치해야합니다.

$$ \ int_0 ^ {\ infty} f (x) dx $$

실패 분석을 위해 때때로 지수 분포가 사용됩니다. 그러나 일반적인 실패 빈도가 시간에 관계없이 관심있는 경우 정규 분포와 로그 정규 분포 사이에서 이동하는 것이 가능합니다. 위의 형식을 준수 할 수 있기 때문입니다. 물론 적절한 선택은 시뮬레이트 할 시스템 내의 이벤트 또는 프로세스의 성격에 달려 있습니다.

제약 전파

유익한 또 다른 접근법은 각 장치 (또는 장치의 서브넷)를 제약 조건으로 고려하여 시스템을 모델링하는 것입니다. 이것은 추론 그물이며 목표는 확률의 법칙을 따르는 상호 연결된 논리 제약을 통해 값을 전달하는 것입니다. 두 번째 시나리오 에서처럼 첫 번째 시나리오에서 제공하는 단일 값을 산출하거나 가능한 결과 분포를 산출하는 대신 모든 입력 및 출력은 0에서 1 범위의 간격입니다. 신뢰성, 예를 들면 [0.92,1.0].

이 기술은 공식적으로 다음과 같이 식별됩니다. 제약 전파 Winston과 Horn에 의해 창안되었고 J. R. Quinlan, INFERNO : 불확실한 추론에 대한 신중한 접근, Comput. J. 26 (1983) 255-269 . 이 기법을 적용 할 생각이라면 Quinlan의 논문을 읽는 것이 좋을 것입니다.이 논문은 출판 당시 RAND 연구소의 연구원이었습니다.

훌륭한 리뷰가 23 장에서 발견됩니다. Lisp 3 판, Winston과 Horn 제 3 장 인공 지능, Winston . 이내에 윈스턴과 호른 당신은 당신이 사용하고있는 확률 모델에 따라 네트워크를 빨리 프로토 타입 할 수있는 소스 코드를 발견 할 것입니다. Lisp에 익숙하지 않다면 다음과 같은 크로스 플랫폼 버전을 다운로드 할 수있다. Clozure Common Lisp 또는 CLISP 무료로 이 기법은 함수형 프로그래밍 언어에 이상적이며, 하스켈 이 유형의 분석에도 사용됩니다.

제약 전파를 사용하면 얻을 수있는 이점은 실패 위험을 평가할 때 불확실하게 작업 할 수 있다는 것입니다. 더 많은 타당성 접근보다는 엄격한 확률. 각 논리 게이트에는 0-1 범위의 신뢰도의 상위 및 하위 확률이 지정됩니다.이 두 경계 간의 스프레드는 관심있는 요소의 신뢰성에 대한 확실성의 척도입니다. 이러한 값은 확률 법칙 (단순한 산술이 아닌)에 따라 네트워크 전체에 전파되므로 특정 노드의 갑작스러운 변경이 전체 시스템의 안정성에 미치는 영향을 즉시 고려할 수 있습니다.

아래의 그림은 $ L_i $ 및 $ U_i $ 입력 및 $ O_i $ 출력을 가진 제약 조건 상자의 예제 집합을 보여줍니다. 네트워크의 모든 값은 구간 [0,1] 내에 포함되어야하며 $ Pr_i $ 값은 구간 [$ L_i $, $ U_i $] 내에 있어야합니다.

Constraint Propagation

시스템은 모든 값을 $ L_i = 0.0 $ 및 $ U_i = 1.0 $로 초기화합니다. 노드 값이 각각 업데이트되면 시스템은 자동으로 확률 법칙에 따라 모든 노드에 새 값을 전달합니다. 그만큼 또는 제약 조건 중 하나라도 입력 ($ L_i $ 또는 $ U_i $)이 표시되면 생존을 고려해야합니다. 제약 조건은 두 값이 모두 같을 때만 생존을 고려합니다 (보다 보수적 인).

이 경우 $ O_C $의 최종 결과는 낮은 신뢰도를 나타내는 간격을 산출합니다. 예를 들어 [0.92, 1.0]. 상한 신뢰성이 1.0 이하로 떨어지면 심각한 네트워크 안정성 문제를 일으킬 수 있습니다.

이것은 앞으로 및 뒤로 작동하므로 고려할 수 있습니다. 만약 예를 들어, 노드가 교체 된 경우 전체 시스템에 미치는 영향은 무엇입니까? 또한이 목적으로 사용하지는 않았지만 실시간으로 문제가 발생하는 지점을 신속하게 보여주기 위해 네트워크의 색상 코드 출력을 생성 할 수 있어야합니다.

폐쇄

노드 수가 100,000 인 네트워크의 경우 네트워크를 연속적인 단위와 같은 블록으로 분리하십시오. 처음에는 시스템에서 이들 각각을 모델링 한 다음 전체를 살펴보기 위해 개발하십시오. 의심의 여지 당신이 잠재적 인 혜택을 신속 하게이 과정에서 발견 할 것이다.


데이터 흐름은 엔드 포인트이므로 각 장비와 독립적입니다. 하지만 정보 주셔서 감사합니다. 매우 도움이됩니다.
Jonab Kornell

@JonabKornell : 환영합니다 - 독립적이고 연결되지 않은 요소를 많이 볼 때 고전적인 방식의 실패 분석은 해저드 기능과 파생 상품 예를 들어 정상, 지수 또는와 이블 분포 일 수 있습니다. 그러나이 장치들은 홀로 서 있지 않습니다. 그들은 무언가에 연결되어 있으며, 이로 인해 격리되어있는 것을 고려하기가 어려울 수 있습니다.
AsymLabs
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.