일관성있는 추정기의 수학적 정의를 이미 이해했다고 생각합니다. 틀린 점 있으면 지적 해주세요:
위한 일관된 추정기이다 경우
여기서 는 파라 메트릭 공간입니다. 그러나 견적자가 일관성을 유지해야 할 필요성을 이해하고 싶습니다. 일관성이없는 추정기가 나쁜 이유는 무엇입니까? 몇 가지 예를 들어 주시겠습니까?
R 또는 파이썬에서 시뮬레이션을 수락합니다.
일관성있는 추정기의 수학적 정의를 이미 이해했다고 생각합니다. 틀린 점 있으면 지적 해주세요:
위한 일관된 추정기이다 경우
여기서 는 파라 메트릭 공간입니다. 그러나 견적자가 일관성을 유지해야 할 필요성을 이해하고 싶습니다. 일관성이없는 추정기가 나쁜 이유는 무엇입니까? 몇 가지 예를 들어 주시겠습니까?
R 또는 파이썬에서 시뮬레이션을 수락합니다.
답변:
n = 10을 고려하십시오표준 Cauchy 분포에서 1 천 개의 관측치, 이는 자유도가 1 인 스튜던트 t 분포와 동일합니다. 이 분포의 꼬리는 충분히 무거워 평균이 없습니다. 분포는 중앙값 η = 0에 중심을 둡니다 .
일련의 샘플은 A j = 1을 의미합니다 는 Cauchy 분포의 중심과 일치하지 않습니다. 대략 말하기, 어려움은 매우 극단적 인 관측이다(양 또는 음)에 대한 기회가 없음을 충분한 규칙 발생에 수렴합니다 (뿐만 아니라 느린 수렴, 그들은 '돈되는이 t 적 수렴. 분포j는다시 인 표준 코시 [증명]).
대조적으로, 지속적인 샘플링 과정의 어느 단계에서, 관측의 약 절반 양쪽에 존재할 것이다 시퀀스 그래서 샘플의 중앙값은 수렴하지
융합이 부족 와 융합 다음과 같은 시뮬레이션에 의해 도시되어있다.
set.seed(2019) # for reproducibility
n = 10000; x = rt(n, 1); j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
h[i] = median(x[1:i]) }
par(mfrow=c(1,2))
plot(j,a, type="l", ylim=c(-5,5), lwd=2,
main="Trace of Sample Mean")
abline(h=0, col="green2")
k = j[abs(x)>1000]
abline(v=k, col="red", lty="dotted")
plot(j,h, type="l", ylim=c(-5,5), lwd=2,
main="Trace of Sample Median")
abline(h=0, col="green2")
par(mfrow=c(1,1))
다음은 단계 목록입니다. 왼쪽에있는 플롯 (수직 빨간색 점선)의 실행 평균에 대한 이러한 극단 관측치의 영향을 볼 수 있습니다.
k = j[abs(x)>1000]
rbind(k, round(x[k]))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
k 291 898 1293 1602 2547 5472 6079 9158
-5440 2502 5421 -2231 1635 -2644 -10194 -3137
추정에서 중요한 일관성 : Cauchy 모집단에서 샘플링 할 때 표본의 표본 평균은
충분한 관심을 끌지 못한다고 생각하는 일관성을 생각하는 것이 왜 중요한지에 대한 간단한 예는 지나치게 단순화 된 모델입니다.
이론적 인 예로, 실제 효과가 실제로 비선형 인 일부 데이터에 선형 회귀 모델을 적용하려고한다고 가정합니다. 그러면 공변량의 모든 조합에 대한 실제 평균과 예측 이 일치 하지는 않지만 보다 유연한 방법이 가능합니다. 다시 말해, 단순화 된 모델에는 더 많은 데이터를 사용하여 극복 할 수없는 단점이 있습니다.
@BruceET은 이미 훌륭한 기술 답변을 제공했지만 그 해석에 대한 요점을 추가하고 싶습니다.
One of the fundamental concepts in statistics is that as our sample size increases, we can reach more precise conclusions about our underlying distribution. You could think of it as the notion that taking lots of samples eliminates the random jitter in the data, so we get a better notion of the underlying structure.
Examples of theorems in this vein are plentiful, but the most well-known is the Law of Large Numbers, asserting that if we have a family of i.i.d. random variables and , then
Now, to require an estimator to be consistent is to demand that it also follows this rule: As its job is to estimate an unknown parameter, we would like it to converge to that parameter (read: estimate that parameter arbitrarily well) as our sample size tends to infinity.
The equation
is nothing else but convergence in probability of the random variables towards , meaning that in some sense, a larger sample will get us closer and closer to the true value.
Now, if you want, you can look at it conversely: If that condition were to fail, then even with infinite sample size, there would be a "corridor" with positive width around and a nonzero probability that even with arbitrarily large sample size, our estimator will fall outside that corridor. And that would obviously violate the aforementioned idea, so consistency is a very natural condition on estimators to desire and enforce.