1 % 미만의 물체에 결함이있을 확률이 95 % 인 경우 얼마나 많은 샘플이 필요합니까?


9

내 XML 사이트 맵이 다음보다 적은지 확인해야합니다. 1%쓰레기 (깨진 링크). URL 목록은 수십만 개에 달하며 URL을 1 대 1로 모두 테스트하는 것이 가능하더라도 여러 가지 이유로하지는 않을 것입니다.

1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...

그래서 임의의 하위 집합을 취하는 것으로 충분하다고 생각합니다. 문제는 확률을 모른다는 것입니다.

사용할 수있는 간단한 기능이 있습니까?

도움이된다면, 런에서 링크가 끊어 질 확률에 대한 사전 정보 가 있다고 가정 할 수 있습니다 . 달리기 전반에 걸쳐0.75% 주어진 링크가 끊어 질 수 있습니다.


당신은 얼마나 많은 URL을 가지고 있습니까? (유한 인구에 대한 유추는 무한한 인구에 대한 일반적인 추론의 경우와는 약간 다릅니다.)
Kodiologist

?? 유한 한 숫자
gurghet

그것은 말할 필요도 없지만 어떤 유한 수입니까?
Kodiologist

수천의 수백에, 매일 약간의 차이가
gurghet

사이트 맵이 어떻게 바뀌고 있습니까? 매일 완전히 다른 사이트 맵이 있습니까, 아니면 일부 URL이 추가 및 제거됩니까? 후자의 경우 추가 또는 제거 된 항목을 추적 할 수 있으므로 새 항목 만 확인하면됩니까?
Kodiologist

답변:


4

따라서 파손 률에 대한 사전 믿음의 분포에 따라 다르지만 약 3600입니다.

import scipy as sp

p = 0.0075
threshold = .01
confidence = .95

f = lambda n: sp.stats.beta(a=n*p, b=n*(1-p)).cdf(threshold) - confidence
print(sp.optimize.fsolve(f, 1000)[0])

>> 3627.45119614

여기서 아이디어는 링크 파손을 베르누이 (Beroulli) 시험으로 모델링하고, 파손 률에 대한 귀하의 신념을 베타 분포로 모델링하는 것입니다. 베타 배포판 은 Bernoulli 배포판결합되어 있으며 시험판을 실행할 때 베타 배포판을 업데이트하는 방법은 매우 간단합니다.

  • 실패한 경우 첫 번째 매개 변수에 하나를 추가합니다. α
  • 성공하면 두 번째 매개 변수에 하나를 추가하고 β

우리가 시작하면 Beta(0,0)분포와 시간의 약 .75 %의 고장을 볼 수 있다면, 분포 질량의 95 %가 0.01 미만이되기 전에 몇 번의 시험이 필요할까요? 약 3600.


이전의 Beesian 분석이 더 의미가있는 경우 중 하나는 단순한 엉덩이 조작이나 조작하려는 의도가 아닙니다. 그러나 아마도 당신은p 매개 변수는 0.5에서 0.9 % 사이이며 해당하는 필수 플롯 n
David Ernst

1

에 대한 n 와 샘플 p=0.0075 실패 가능성, 실패 횟수의 차이는 np(1p). 따라서 중앙 제한 정리를 사용하면Z 표준 법선

P(failures<.01n)P(Z<n(.01p)np(1p))P(Z<n.02898)
이제 우리는 위의 95 %를 원합니다. Z=1.645. 해결n.02898=1.645, 나는 얻다 n=3222.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.