1 % 미만의 물체에 결함이있을 확률이 95 % 인 경우 얼마나 많은 샘플이 필요합니까?

내 XML 사이트 맵이 다음보다 적은지 확인해야합니다. $1\%$ 쓰레기 (깨진 링크). URL 목록은 수십만 개에 달하며 URL을 1 대 1로 모두 테스트하는 것이 가능하더라도 여러 가지 이유로하지는 않을 것입니다.

1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...

그래서 임의의 하위 집합을 취하는 것으로 충분하다고 생각합니다. 문제는 확률을 모른다는 것입니다.

사용할 수있는 간단한 기능이 있습니까?

도움이된다면, 런에서 링크가 끊어 질 확률에 대한 사전 정보 가 있다고 가정 할 수 있습니다 . 달리기 전반에 걸쳐 $0.75\%$ 주어진 링크가 끊어 질 수 있습니다.

probability confidence-interval sample-size

— 거지
소스

당신은 얼마나 많은 URL을 가지고 있습니까? (유한 인구에 대한 유추는 무한한 인구에 대한 일반적인 추론의 경우와는 약간 다릅니다.)

— Kodiologist

?? 유한 한 숫자

— gurghet

그것은 말할 필요도 없지만 어떤 유한 수입니까?

— Kodiologist

수천의 수백에, 매일 약간의 차이가

— gurghet

사이트 맵이 어떻게 바뀌고 있습니까? 매일 완전히 다른 사이트 맵이 있습니까, 아니면 일부 URL이 추가 및 제거됩니까? 후자의 경우 추가 또는 제거 된 항목을 추적 할 수 있으므로 새 항목 만 확인하면됩니까?

— Kodiologist

답변:

따라서 파손 률에 대한 사전 믿음의 분포에 따라 다르지만 약 3600입니다.

import scipy as sp

p = 0.0075
threshold = .01
confidence = .95

f = lambda n: sp.stats.beta(a=n*p, b=n*(1-p)).cdf(threshold) - confidence
print(sp.optimize.fsolve(f, 1000)[0])

>> 3627.45119614

여기서 아이디어는 링크 파손을 베르누이 (Beroulli) 시험으로 모델링하고, 파손 률에 대한 귀하의 신념을 베타 분포로 모델링하는 것입니다. 베타 배포판 은 Bernoulli 배포판 과 결합되어 있으며 시험판을 실행할 때 베타 배포판을 업데이트하는 방법은 매우 간단합니다.

실패한 경우 첫 번째 매개 변수에 하나를 추가합니다. $\alpha$
성공하면 두 번째 매개 변수에 하나를 추가하고 $\beta$

우리가 시작하면 $\text{Beta}(0, 0)$ 분포와 시간의 약 .75 %의 고장을 볼 수 있다면, 분포 질량의 95 %가 0.01 미만이되기 전에 몇 번의 시험이 필요할까요? 약 3600.

— 앤디 존스
소스

이전의 Beesian 분석이 더 의미가있는 경우 중 하나는 단순한 엉덩이 조작이나 조작하려는 의도가 아닙니다. 그러나 아마도 당신은

p

$p$ 매개 변수는 0.5에서 0.9 % 사이이며 해당하는 필수 플롯

n

$n$

— David Ernst

에 대한 $n$ 와 샘플 $p=0.0075$ 실패 가능성, 실패 횟수의 차이는 $n p (1-p)$ . 따라서 중앙 제한 정리를 사용하면 $Z$ 표준 법선

\begin{aligned} P (failures < .01 n) \approx P (Z < \frac{n (.01 - p)}{\sqrt{n p (1 - p)}}) \approx P (Z < \sqrt{n} .02898) \end{aligned}

$\begin{align*} \mathbb{P}(\text{failures} < .01 n) \approx \mathbb{P}(Z < \frac{n (.01 - p)}{\sqrt{n p (1-p)}}) \approx \mathbb{P}(Z < \sqrt{n} .02898) \end{align*}$ 이제 우리는 위의 95 %를 원합니다.

Z = 1.645

$Z = 1.645$ . 해결

\sqrt{n} .02898 = 1.645

$\sqrt{n} .02898 = 1.645$ , 나는 얻다

n = 3222

$n=3222$ .

— 잭캄
소스