10 회 실패까지 샘플링하여 Bernoulli 프로세스의 확률 추정 : 편향되어 있습니까?


15

10 개의 실패 가 발생할 때까지 샘플링 할 수있는 실패 확률 q (작은 수, 예 : q 0.01 )를 갖는 Bernoulli 프로세스 가 있다고 가정하십시오 . 우리는 따라서로 실패의 확률을 추정 Q : = 10 / N 여기서, 샘플들의 개수이다.qq0.0110q^:=10/NN

질문 : IS 바이어스 추정 의 ? 그렇다면 수정하는 방법이 있습니까?q^q

나는 마지막 샘플을 주장하는 것이 실패로 추정을 바이어스하는 것에 대해 걱정하고 있습니다.


5
현재 답변 최소 분산 비 편향 추정기 제공 짧은 정지 . 음 이항 분포에 대한 Wikipedia 기사의 샘플링 및 포인트 추정 섹션을 참조하십시오 . (101)/(N1)
A. Webb

답변:


10

사실이다 q는 의 바이어스 추정치 Q 있다는 점에서 E ( Q ) q는 있지만, 반드시이 당신을 망칠 안가. 이 정확한 시나리오는 항상 바이어스되지 않은 추정기를 사용해야한다는 생각에 대한 비판으로 사용될 수 있습니다. 여기서 바이어스는 우리가 수행하는 특정 실험의 인공물에 가깝기 때문입니다. 사전에 샘플 수를 선택한 경우 데이터가 정확하게 표시되므로 추론이 변경되는 이유는 무엇입니까?q^qE(q^)q

흥미롭게도,이 방법으로 데이터를 수집 한 다음 이항 (고정 된 표본 크기) 모델과 음의 이항 모델 아래에 우도 함수를 기록하면 두 모델이 서로 비례한다는 것을 알 수 있습니다. 것을이 수단 q는 물론 완벽하게 합리적인 추정치이다 음 이항 모델에서 그냥 보통의 최대 우도 추정치이다.q^


큰! 이 편견은 문제가 아닌 것 같습니다.
becky

9

마지막 샘플이 추정값을 바이어스하는 실패라고 주장하지 않고 N 의 역수를 취합니다.

그래서 귀하의 예에서는 q 이지만 E[10E[N10]=1q. 이것은 산술 평균과 고조파 평균을 비교하는 것에 가깝습니다.E[10N]q

나쁜 소식은 같은 바이어스가 증가 할 수 있다는 것입니다 작아진다 번 정도가 아니지만, q는 이미 작다. 좋은 소식은 필요한 실패 횟수가 증가함에 따라 바이어스가 감소한다는 것입니다. f 실패가 필요한 경우 바이어스는 f 의 곱셈 계수에 의해 제한됩니다.qf작은q에대해 f - 1 ; 첫 번째 실패 후 중지 할 때이 방법을 원하지 않습니다 ff1q

실패 후 정지 , q = 0.01 이면 E [ N10q=0.01이지만 E[10E[N10]=100이고q=0.001 인경우E[NE[10N]0.011097q=0.001이지만 E[10E[N10]=1000. 대략10의 치우침E[10N]0.001111 곱하기 요소 109


7

dsaxton의 대답을 보완, 여기서 샘플링 분포 나타내는 R의 일부 시뮬레이션이므로 Q K = 10Q 0 = 0.02 :q^k=10q0=0.02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

이 모양 의 변동에 비교적 작은 바이어스 기준으로, Q .E[q^]0.022q^

q_hat의 히스토그램


1
정말 도움이됩니다. 그 수준에서는 걱정할 가치가 없습니다.
becky

2
이 시뮬레이션을보다 간결하게 작성할 수 있습니다10+rnbinom(10000,10,0.02)
A. Webb

@ A.Webb는 고맙습니다. 좋은 지적입니다. 나는 정말로 바퀴를 재발 명했다. "rnbinom"을 읽어야합니다. 그런 다음 게시물을 편집하겠습니다.
Adrian

1
그렇습니다 10/(10+rnbinom(10000,10,0.02)). 매개 변수화는 총 시행 횟수가 아니라 성공 / 실패 횟수로 표시되므로 k = 10을 다시 추가해야합니다. 바이어스되지 않은 추정량은 9/(9+rnbinom(10000,10,0.02))분자와 분모가 1보다 작습니다.
A. Webb
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.