10 회 실패까지 샘플링하여 Bernoulli 프로세스의 확률 추정 : 편향되어 있습니까?

15

실패 가 발생할 때까지 샘플링 할 수있는 실패 확률 (작은 수, 예 : )를 갖는 Bernoulli 프로세스 가 있다고 가정하십시오 . 우리는 따라서로 실패의 확률을 추정 여기서, 샘플들의 개수이다. $q$ $q \leq 0.01$ $10$ $\hat{q}:=10/N$ $N$

질문 : IS 바이어스 추정 의 ? 그렇다면 수정하는 방법이 있습니까? $\hat{q}$ $q$

나는 마지막 샘플을 주장하는 것이 실패로 추정을 바이어스하는 것에 대해 걱정하고 있습니다.

estimation bernoulli-distribution

— becky
소스

5

현재 답변 최소 분산 비 편향 추정기 제공 짧은 정지

. 음 이항 분포에 대한 Wikipedia 기사의 샘플링 및 포인트 추정 섹션을 참조하십시오 .

(10 - 1) / (N - 1)

$(10-1)/(N-1)$

— A. Webb

10

사실이다 의 바이어스 추정치 있다는 점에서 있지만, 반드시이 당신을 망칠 안가. 이 정확한 시나리오는 항상 바이어스되지 않은 추정기를 사용해야한다는 생각에 대한 비판으로 사용될 수 있습니다. 여기서 바이어스는 우리가 수행하는 특정 실험의 인공물에 가깝기 때문입니다. 사전에 샘플 수를 선택한 경우 데이터가 정확하게 표시되므로 추론이 변경되는 이유는 무엇입니까? $\hat{q}$ $q$ $\text{E}(\hat{q}) \neq q$

흥미롭게도,이 방법으로 데이터를 수집 한 다음 이항 (고정 된 표본 크기) 모델과 음의 이항 모델 아래에 우도 함수를 기록하면 두 모델이 서로 비례한다는 것을 알 수 있습니다. 것을이 수단 물론 완벽하게 합리적인 추정치이다 음 이항 모델에서 그냥 보통의 최대 우도 추정치이다. $\hat{q}$

— dsaxton
소스

큰! 이 편견은 문제가 아닌 것 같습니다.

— becky

9

마지막 샘플이 추정값을 바이어스하는 실패라고 주장하지 않고 의 역수를 취합니다. $N$

그래서 귀하의 예에서는 이지만 $\mathbb{E}\left[\frac{N}{10}\right] =\frac{1}{q}$ . 이것은 산술 평균과 고조파 평균을 비교하는 것에 가깝습니다. $\mathbb{E}\left[\frac{10}{N}\right] \not = q$

나쁜 소식은 같은 바이어스가 증가 할 수 있다는 것입니다 작아진다 번 정도가 아니지만, 이미 작다. 좋은 소식은 필요한 실패 횟수가 증가함에 따라 바이어스가 감소한다는 것입니다. 실패가 필요한 경우 바이어스는 의 곱셈 계수에 의해 제한됩니다. $q$ $q$ $f$ 작은대해 ; 첫 번째 실패 후 중지 할 때이 방법을 원하지 않습니다 $\frac{f}{f-1}$ $q$

실패 후 정지 , 이면 $10$ $q=0.01$ 이지만 $\mathbb{E}\left[\frac{N}{10}\right] = 100$ 이고경우 $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.011097$ $q=0.001$ 이지만 $\mathbb{E}\left[\frac{N}{10}\right] = 1000$ . 대략의 치우침 $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.001111$ 곱하기 요소 $\frac{10}{9}$

— 헨리
소스

7

dsaxton의 대답을 보완, 여기서 샘플링 분포 나타내는 R의 일부 시뮬레이션이므로 및 : $\hat{q}$ $k=10$ $q_0 = 0.02$

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

이 모양 의 변동에 비교적 작은 바이어스 기준으로, . $\mathbb{E}\left[ \hat{q}\right] \approx 0.022$ $\hat{q}$

— 아드리안
소스

1

정말 도움이됩니다. 그 수준에서는 걱정할 가치가 없습니다.

— becky

2

이 시뮬레이션을보다 간결하게 작성할 수 있습니다10+rnbinom(10000,10,0.02)

— A. Webb

@ A.Webb는 고맙습니다. 좋은 지적입니다. 나는 정말로 바퀴를 재발 명했다. "rnbinom"을 읽어야합니다. 그런 다음 게시물을 편집하겠습니다.

— Adrian

1

그렇습니다 10/(10+rnbinom(10000,10,0.02)). 매개 변수화는 총 시행 횟수가 아니라 성공 / 실패 횟수로 표시되므로 k = 10을 다시 추가해야합니다. 바이어스되지 않은 추정량은 9/(9+rnbinom(10000,10,0.02))분자와 분모가 1보다 작습니다.

— A. Webb