10 개의 실패 가 발생할 때까지 샘플링 할 수있는 실패 확률 q (작은 수, 예 : q ≤ 0.01 )를 갖는 Bernoulli 프로세스 가 있다고 가정하십시오 . 우리는 따라서로 실패의 확률을 추정 Q : = 10 / N 여기서, 샘플들의 개수이다.
질문 : IS 바이어스 추정 의 ? 그렇다면 수정하는 방법이 있습니까?
나는 마지막 샘플을 주장하는 것이 실패로 추정을 바이어스하는 것에 대해 걱정하고 있습니다.
10 개의 실패 가 발생할 때까지 샘플링 할 수있는 실패 확률 q (작은 수, 예 : q ≤ 0.01 )를 갖는 Bernoulli 프로세스 가 있다고 가정하십시오 . 우리는 따라서로 실패의 확률을 추정 Q : = 10 / N 여기서, 샘플들의 개수이다.
질문 : IS 바이어스 추정 의 ? 그렇다면 수정하는 방법이 있습니까?
나는 마지막 샘플을 주장하는 것이 실패로 추정을 바이어스하는 것에 대해 걱정하고 있습니다.
답변:
사실이다 q는 의 바이어스 추정치 Q 있다는 점에서 E ( Q ) ≠ q는 있지만, 반드시이 당신을 망칠 안가. 이 정확한 시나리오는 항상 바이어스되지 않은 추정기를 사용해야한다는 생각에 대한 비판으로 사용될 수 있습니다. 여기서 바이어스는 우리가 수행하는 특정 실험의 인공물에 가깝기 때문입니다. 사전에 샘플 수를 선택한 경우 데이터가 정확하게 표시되므로 추론이 변경되는 이유는 무엇입니까?
흥미롭게도,이 방법으로 데이터를 수집 한 다음 이항 (고정 된 표본 크기) 모델과 음의 이항 모델 아래에 우도 함수를 기록하면 두 모델이 서로 비례한다는 것을 알 수 있습니다. 것을이 수단 q는 물론 완벽하게 합리적인 추정치이다 음 이항 모델에서 그냥 보통의 최대 우도 추정치이다.
마지막 샘플이 추정값을 바이어스하는 실패라고 주장하지 않고 N 의 역수를 취합니다.
그래서 귀하의 예에서는 q 이지만 E[10. 이것은 산술 평균과 고조파 평균을 비교하는 것에 가깝습니다.
나쁜 소식은 같은 바이어스가 증가 할 수 있다는 것입니다 작아진다 번 정도가 아니지만, q는 이미 작다. 좋은 소식은 필요한 실패 횟수가 증가함에 따라 바이어스가 감소한다는 것입니다. f 실패가 필요한 경우 바이어스는 f 의 곱셈 계수에 의해 제한됩니다.작은q에대해 f - 1 ; 첫 번째 실패 후 중지 할 때이 방법을 원하지 않습니다
실패 후 정지 , q = 0.01 이면 E [ N이지만 E[10이고q=0.001 인경우E[N이지만 E[10. 대략10의 치우침 곱하기 요소
dsaxton의 대답을 보완, 여기서 샘플링 분포 나타내는 R의 일부 시뮬레이션이므로 Q K = 10 및 Q 0 = 0.02 :
n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k) # Sanity check, cannot have 10 failures in < 10 trials
estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2) # True failure probability in red
## dev.off()
mean(estimated_failure_probability) # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob) # Interval around [0.0220, 0.0223]
이 모양 의 변동에 비교적 작은 바이어스 기준으로, Q .
10+rnbinom(10000,10,0.02)
10/(10+rnbinom(10000,10,0.02))
. 매개 변수화는 총 시행 횟수가 아니라 성공 / 실패 횟수로 표시되므로 k = 10을 다시 추가해야합니다. 바이어스되지 않은 추정량은 9/(9+rnbinom(10000,10,0.02))
분자와 분모가 1보다 작습니다.