1 년 동안 현장에 10 만 개의 제품이 있고 고장이없는 경우 제품 고장의 가능성을 알려주는 방법이 있는지 궁금합니다. 다음 10,000 개 제품 중 하나가 판매 될 가능성은 얼마입니까?
1 년 동안 현장에 10 만 개의 제품이 있고 고장이없는 경우 제품 고장의 가능성을 알려주는 방법이 있는지 궁금합니다. 다음 10,000 개 제품 중 하나가 판매 될 가능성은 얼마입니까?
답변:
제품이 고장날 확률은 확실히 시간과 사용의 기능입니다. 우리는 사용중인 데이터가 없으며 1 년 만에 실패가 없습니다 (축하합니다!). 따라서이 측면 ( 생존 함수 라고 함)은 데이터에서 추정 할 수 없습니다.
그러나 이항 분포 에서 나온 것으로 1 년 이내에 실패를 생각할 수 있습니다 . 여전히 실패는 없지만 이제는 일반적인 문제입니다. 간단한 해결책은 3 규칙 을 사용하는 것입니다. 이 규칙은 큰 (확실히 가지고 있음)에 정확 합니다. 특히, 1 년 내에 실제 실패 확률에 대해 단측 95 % 신뢰 구간 의 상한 (즉, 하한은 )을 있습니다. 귀하의 경우, 요금이 미만이라고 95 % 확신합니다 . 0 3 / N 0.00003
또한 다음 10k 중 하나 이상이 실패 할 확률을 계산하는 방법도 물었습니다. 상기 분석을 확장하기위한 빠르고 (극 불구) 간단한 방법은 기본적인 확률로 상한을 사용 없을 확률 얻을 대응 이항 CDF를 사용하는 실패. 사용하여 코드를, 우리가 할 수있는 : 하는 얻을 수있는 다음 10K 제품에 하나 개 이상의 실패를 보는 기회를. 상한을 사용함으로써 이는 최소 하나 이상의 고장이 발생할 확률에 대한 최적의 포인트 추정치가 아니며 고장 의 확률 이 초과 할 가능성은 거의 없습니다≥ 1 ≈ 26 % ( F + 1 ) / ( N + 2 ) F의 P = 9.9998 × 10 - 06 1 + ≈ 10 %R
1-pbinom(0, size=10000, prob=0.00003)
0.2591851
(이것은 다소 '손으로 물결 치는'프레임임을 인식합니다). 또 다른 가능성은 Laplace의 승계 규칙 에서 추정 한 @amoeba의 제안 을 사용하는 것 입니다. 승계 규칙은 예상되는 실패 확률이 이며 여기서 는 실패 횟수입니다. 이 경우, , 그리고 예측 된 확률의 계산 다음 10,000 실패는 항복 또는 . 1-pbinom(0, size=10000, prob=9.9998e-06)
0.09516122
베이지안 접근을 할 수 있습니다. 로 실패 확률을 표시하고 임의 변수로 생각하십시오. 우선 실험의 결과를보기 전에 이라고 생각할 수 있습니다 . 이 제품을 신뢰할 수 있도록 엔지니어를 신뢰하는 경우 정도 걸릴 수 있습니다 . 이것은 당신에게 달려 있습니다. 그런 다음 Bayes 정리를 사용하여 의 사후 분포를 계산할 수 있습니다 . 관찰 한 이벤트를 나타냅니다 ( 실패가없는 실험 ).Θ ∼ U ( 0 , 1 ) Θ ∼ U ( 0 , 0.1 ) θ A n
Θp(θ)np(A|θ)nθ
당신은 일단 당신이 모든 이벤트의 확률을 계산할 수 있습니다 : 당신은 금이야 integrateion 기준 :B P ( B ) = ∫ p ( B | θ ) p ( θ | A ) d θ
아래에서 위의 접근 방식에 따라 자세한 솔루션을 진행합니다. 몇 가지 표준 단축키를 사용하겠습니다.
선행을 이라고하자 . 그런 다음 : 정규화 상수 는 -위키 백과 페이지 베타 함수 및 베타 분포를 참조하십시오 . 따라서 은 매개 변수 의 베타 분포입니다 .P ( θ | ) α의 P ( | θ ) ⋅ 1 = ( 1 - θ ) N . p ( A ) = ∫ p ( A | θ ) p ( θ ) d θ B ( 1 , n + 1 ) p ( θ | A )
가 내년 에 제품에 실패가 없을 확률을 나타냅니다 . 적어도 하나의 실패 확률은 입니다. 그런 다음 B 1 - P ( B ) 1 - P ( B ) = 1 − ∫ ( 1 − θ ) m ( 1 − θ ) n
사용하여 대략 입니다. 그리 인상적이지 않습니까? 나는 실패 확률에 대해 균일 한 분포를 취했다. 아마도 당신은 엔지니어에 대한 더 나은 사전 믿음을 가지고있을 것입니다.N = 100 , 000 , m = 10 , 000
확률을 계산하는 대신 실패 할 수있는 제품 수를 예측해 보십시오 .
현장 에는 제품이 있으며 다른 고려 중입니다. 그들의 실패가 모두 독립적이고 확률 일정하다고 가정하자 .m = 10000 P
우리는 이항 실험을 통해이 상황을 모델링 할 수 있습니다. "실패"티켓의 비율 를 알 수없는 티켓 상자 와 "성공"티켓을 사용하여 티켓을 그 립니다 (교체 포함). 실패의 확률은 동일하게 유지됩니다). 첫 번째 티켓 중 실패 ( 세고 나머지 티켓 중 실패 를 라고합니다 .1 - p m + n = 110000 n X m Y
원칙적으로 및 은 무엇이든 가능합니다. 우리가 관심을 갖는 것은 ( 는 숫자)를 고려할 때 가능성입니다 . 고장이 중에서도 어디에서나 발생할 수 있기 때문에 동일한 확률을 갖는 모든 가능한 구성으로, 티켓, 그것의 개수로 나눔으로써 발견 의 -subsets 수에 의해 물건을 모든 -subsets 것들0 ≤ Y ≤ m Y = u X + Y = u u { 0 , 1 , … , m } n + m u m u n + m
때 계산에 비교 가능한 공식을 사용할 수 있습니다
상부 예측 한도 그 마지막에서 오류의 수 (UPL) 티켓 , 가장 작은 주어진다 (에 따라 하는) 입니다.
UPL은 사용의 위험의 관점에서 해석되어야 , 중 먼저 평가로 또는 관찰된다. 다시 말해, 1 년 전이고 처음 개가 관찰 되면 다음 제품 의 고장 수를 예측하는 절차를 제안하라는 요청을받는다고 가정하십시오 . 고객이 묻습니다
절차가 를 과소 평가할 가능성은 얼마입니까? 앞으로 더 많은 데이터를 얻은 후에는 의미가 없습니다. 내 말은 , 지금 내가 지금 결정을 내려야 나를 지금이 순간에 계산 될 수있는 사람이 할 수있는 유일한 기회는 내가 가능한 때문입니다. "
당신의 응답은
현재 기회는 보다 크지 않지만 더 작은 예측을 사용하려는 경우 기회는 를 초과 합니다.
들면 , , 및 우리는 계산할 수있다
따라서 을 관찰 하면
최대 신뢰도 (즉, )의 경우 다음 제품 에 최대 오류 가있을 것으로 예상 하십시오 .
최대 신뢰도 (즉, ) 는 다음 제품 에 최대 오류가 있을 것으로 예상 합니다.0.8 % ≤ α < 9.1 % t α ( 0 ; n , m ) = 2 10 , 000
기타.
이 접근법은 언제 그리고 왜 적용됩니까? 회사에서 다른 제품을 많이 만든다고 가정하십시오. 현장에서 각각 의 성능을 관찰 한 후 "1 년 이내에 모든 오류를 무료로 완전 교체"와 같은 보증을 제공합니다. 장애 수 에 대한 예측 한계를 가짐으로써 그러한 보증을 뒷받침하는 총 비용을 제어 할 수 있습니다. 많은 제품을 만들고 제어 할 수없는 임의의 상황으로 인해 실패 할 것으로 예상되므로 각 제품의 경험은 독립적입니다. 장기적으로 위험을 통제하는 것이 합리적입니다.α α. 가끔씩 예상보다 많은 청구를 지불해야 할 수도 있지만 대부분의 경우 더 적은 비용을 지불하게됩니다. 발표 된 것보다 더 많은 비용을 지불하는 것이 파괴적 일 수 있다면, 를 매우 작게 설정할 것입니다 (그리고 더 정교한 실패 모델을 사용할 것입니다!). 그렇지 않으면 비용이 적은 경우 낮은 신뢰도 (높은 )로 살 수 있습니다 . 이 계산은 신뢰와 위험의 균형을 맞추는 방법을 보여줍니다.
전체 프로 시저 를 계산할 필요는 없습니다 . 우리는 가 관측 될 때까지 기다린 다음 위에 표시된 것처럼 특정 (여기서는 )에 대한 계산 을 수행합니다 . 그러나 원칙적으로 우리 는 처음에 가능한 모든 값에 대한 계산을 수행 할 수있었습니다 .X X X = 0 X
베이지안 접근법 (다른 답변에서 설명)은 매력적이며 결과가 이전에 크게 의존하지 않는 한 잘 작동합니다 . 불행히도, 실패율이 너무 낮아서 (또는 실패가 거의) 관찰되지 않으면 결과는 이전의 선택에 민감합니다.
다음은 "1 만 개의 신제품 중 이전 100,000 개가 모두 실패하지 않은 경우 몇 개가 실패 할 것으로 예상됩니까?"에 대한 베이지안 답변입니다. 그러나 이전의 다른 민감도를 고려해야합니다.
한다고 가정 주어진 조건에 독립적이고 동일하게 분포 ,되도록 및 이전 접합체를 사용 와 .
용 , 우리는 한
들면 , 우리가 여기서 우리는 입니다.
균일 한 사전 ( )을 사용 하여 숫자를 연결 하면 약 정도의 실패율이 예상 되지만 Jeffreys와 같은 이전 ( )은 가까운 고장률 .
이 예측 기대치는 예측 분포가 크게 왜곡되어 있기 때문에 좋은 요약으로 보이지 않습니다. 더 나아가 예측 분포를 계산할 수 있습니다. 이후 이전에 한 것처럼 컨디셔닝 입니다 .
나중에 예측 간격 계산을 마치겠습니다 .
Laplace의 일출 문제 접근 방식을 사용하면 1 년 내에 제품이 실패 할 가능성이 있습니다 . 다음으로, 년 내에 신제품이 실패하지 않을 확률 은 이므로, 내년 에 1 개 이상의 제품 이 실패 할 확률 은 를 들어 값이 . whuber의 경우 실제로 로 상당히 높습니다.
물론 더 많은 제품이 판매되는 동안 데이터를 계속 업데이트해야합니다.
이 질문에 대한 몇 가지 좋은 답변이 제공되었지만 최근에는이 주제에 대한 리소스를 거의 검토 할 수 없었기 때문에 결과를 공유하기로 결정했습니다.
제로 실패 데이터에 대한 여러 추정기가 있습니다. 을 실패 횟수로, 을 표본 크기 로 표시하겠습니다 . 이 데이터에서 주어진 실패 확률에 대한 최대 우도 추정값은 다음과 같습니다.
우리가 샘플에서 실패를 관찰하지 않았다는 사실이 일반적으로 불가능하다는 것을 거의 증명하지 못하기 때문에 그러한 추정은 다소 불만족 스럽다. 데이터에 대한 지식이 부족하면 (아직) 관찰되지 않았더라도 약간 의 실패 가능성 이 있음을 시사합니다 . 사전 지식이 있으면 Bailey (1997), Razzaghi (2002), Basu et al (1996) 및 Ludbrook and Lew (2009)가 검토 한 베이지안 방법을 사용하게됩니다.
가정하는 간단한 추정자 중 "상한"추정기 (Bailey, 1997)
제로 실패의 경우 P에 대한 추정자가 합리적인 실패의 상한 일 경우의 최대 우도 추정에 의해 예측 된 확률을 초과하는 것이 논리적이지 않을 것
~로써 정의 된
언급 될 수 있습니다. Ludbrook and Lew (2009)에 의해 검토 된 바와 같이, 다른 가능성은 "3의 규칙"입니다 ( 여기 , Wikipedia 또는 Eypasch et al, 1995 참조).
또는 다른 변형 :
Newcombe와 Altman (또는 3.6)의 "3.7의 규칙":
"4의 새로운 규칙":
그러나 Ludbrook and Lew (2009)에 의해 결론 지어진 "3의 규칙"은 "무의미한 것"과 "3.6의 규칙"(및 3.7)은 심각한 한계를 가지고 있습니다. 초기 샘플 크기가 50보다 작 으면 크게 부정확합니다 " 그들은 적절한 베이지안 추정기를 사용하도록 제안하는 방법 (3)-(6)을 권장 하지 않습니다 (아래 참조).
베이지안 추정기 중에서 여러 가지가 언급 될 수있다. Bailey (1997)가 제안한 최초의 추정량은
균일 한 이전의 중간 값을 추정하기위한 것
또는 그러한 사전에 따라 평균을 추정하기 위해
일정한 실패율 (Poisson distribution) 수율을 갖는 지수 실패 패턴을 가정하는 또 다른 접근법
우리가 사용하는 경우, 베타 파라미터와 종래 및 우리가 수식을 사용할 수있다 (2002 Razzaghi를 참조) :b
하에서 균일 한 사전 (9)으로 이어진다. 로 가정 제프리스 전에 가 리드a = b = 0.5
일반적으로 베이지안 공식 (7)-(12)가 권장됩니다. Basu et al (1996)은 사전 지식이있는 경우 유익한 사전 정보를 사용하여 (11)을 권장합니다. 최선의 단일 방법이 존재하지 않기 때문에 분석하기 전에 특히 이 작은 경우 문헌을 검토하는 것이 좋습니다 .
RT, 베일리 (1997). 무장애 데이터로부터의 추정. 위험 분석, 17 , 375-380.
Razzaghi, M. (2002). 표본에서 발생이 0 인 이항 성공 확률의 추정. 현대 응용 통계 방법의 전표, 1 (2), 41.
Ludbrook, J., & Lew, MJ (2009). 드문 합병증의 위험 추정 : '3의 규칙'이면 충분합니까? ANZ 수술 저널, 79 (7-8), 565-570.
Eypasch, E., Lefering, R., Kum, CK 및 Troidl, H. (1995). 아직 발생하지 않은 이상 반응의 가능성 : 통계적 알림. BMJ 311 (7005) : 619–620.
Basu, AP, Gaylor, DW, & Chen, JJ (1996). 샘플에서 발생이 0 인 희귀 암에 대한 종양 발생 확률 추정. 규제 독성학 및 약리학, 23 (2), 139-144.
제품 디자이너에게 다시 돌아 가야합니다. 이는 관측 통계적 문제가 아닌 근본적인 공학 문제입니다. 각 구성 요소의 고장 확률과 전체 조립 제품의 순 고장 확률에 대한 아이디어가 있습니다. 제품의 전체 설계 수명 동안 예상되는 실패 횟수를 제공 할 수 있습니다.
토목 기사는 설계 수명이 120 년인 다리를 설계합니다. 브릿지의 각 구성 요소는 약간의 실패 가능성이 있습니다. 각 하중은 약간 초과 될 수 있습니다. 교량 건설을 경제적으로하기 위해 총 붕괴는 교량을 유지하는 것보다 훨씬 긴 2400 년 동안 한 번만 발생합니다. 다리가 1 년차 나 2 년차에서 120 년차에 고장이 나지 않는다는 것은 놀라운 일이 아닙니다. 시간이 지남에 따른 다양한 실패 가능성은 독창적 인 디자이너만이 추정 할 수 있습니다.
이것은 생산 실패를 없애기 위해 새로운 제조 공정을 도입했을 때 직면했던 문제와 유사합니다.
새로운 시스템은 실패를 일으키지 않았기 때문에 사람들은 같은 질문을했습니다 : 실패율을 어떻게 예측합니까? 귀하의 경우, 해당 기간 내에 장애가 발생했을 때에 대한 우려없이 장애가 발생할 수있는 기간을 규정 했으므로 시간적 영향이 제거되었습니다. 그리고 단순히 무언가가 실패했는지 아닌지의 경우입니다. 그 대답으로-내 대답으로.
직관적으로, 실패율을 계산하려면 적어도 하나의 실패가 필요합니다. 그러나이 가정은 그 안에 내재 된 실수가 있습니다. 우리는 절대 실패율을 계산하지 않을 것입니다. 샘플을 다루기 때문입니다. 따라서 가능한 실패율의 범위 만 추정 할 수 있습니다. 이를 수행하는 방법은 실패율에 대한 분포를 찾는 것입니다. 이 경우 작업을 수행하는 분포는 매개 변수가 α = n + 1이고 β = N - n + 1 인 베타 분포입니다.
참고 : N 은 표본 크기이고 n 은 실패 횟수입니다 (귀하의 경우 0).
그런 다음 해당 분포를 각 이항 확률 공식에 공급하여 한 단위의 실패 확률에 대한 분포를 얻습니다 (분석적으로 수행하거나 Monte Carlo 사용). 나는 숫자가 매우 낮을 것이라고 생각합니다.
이 프로세스는 주먹 세트의 고장 횟수에 관계없이 적용 할 수 있습니다.