일관성을 유지하기 위해 추정기가 필요한 이유는 무엇입니까?

15

일관성있는 추정기의 수학적 정의를 이미 이해했다고 생각합니다. 틀린 점 있으면 지적 해주세요:

$W_n$ 위한 일관된 추정기이다 $\theta$ 경우 $\forall \epsilon>0$

lim_{n \to \infty} P (| W_{n} - θ | > ϵ) = 0, \forall θ \in Θ

$\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\theta \in \Theta$

여기서 $\Theta$ 는 파라 메트릭 공간입니다. 그러나 견적자가 일관성을 유지해야 할 필요성을 이해하고 싶습니다. 일관성이없는 추정기가 나쁜 이유는 무엇입니까? 몇 가지 예를 들어 주시겠습니까?

R 또는 파이썬에서 시뮬레이션을 수락합니다.

estimation consistency

— 팸
소스

3

일관성이없는 추정기가 항상 나쁜 것은 아닙니다. 일관성이 없지만 편견이없는 추정량을 예로 들어 보겠습니다. 일관성 추정기 en.wikipedia.org/wiki/Consistent_estimator 에 관한 Wikipedia의 기사 , 특히 바이어스와 일관성에 대한 섹션

— compbiostats

일관성은 대략적으로 추정기의 최적의 점근 적 행동을 말하고 있습니다. 장기적 으로

의 실제 값에 접근하는 추정기를 선택 합니다. 이 확률 단지 융합이기 때문에,이 스레드가 도움이 될 수 있습니다 stats.stackexchange.com/questions/134701/... .

θ

$\theta$

— StubbornAtom

@StubbornAtom, 이러한 용어는 일반적으로 어떤 의미에서는 효율적인 추정기에 사용되기 때문에 이러한 일관된 추정기를 "최적"이라고 부를 것입니다.

— Christoph Hanck

22

추정기가 일관되지 않으면 확률 의 실제 값 으로 수렴되지 않습니다 . 다시 말해, 데이터 포인트 수에 상관없이 추정값과 실제 값에 차이가있을 가능성이 항상 있습니다. 막대한 양의 데이터를 수집하더라도 추정치가 항상 실제 값과 $\epsilon>0$ 다를 수 있습니다. 실제로, 작은 표본 대신 모든 인구를 조사해도 도움이되지 않는 양의 추정량을 사용하는 것처럼이 상황을 고려할 수 있습니다.

— 총
소스

21

고려하십시오 $n = 10\,000$ 표준 Cauchy 분포에서 1 관측치, 이는 자유도가 1 인 스튜던트 t 분포와 동일합니다. 이 분포의 꼬리는 충분히 무거워 평균이 없습니다. 분포는 중앙값 중심을 둡니다 $\eta = 0.$

일련의 샘플은 의미합니다 $A_j = \frac 1j \sum_{i=1}^j X_i$ 는 Cauchy 분포의 중심과 일치하지 않습니다. 대략 말하기, 어려움은 매우 극단적 인 관측이다 $X_i$ (양 또는 음)에 대한 기회가 없음을 충분한 규칙 발생 $A_j$ 에 수렴 $\eta = 0.$ 합니다 ( $A_j$ 뿐만 아니라 느린 수렴, 그들은 '돈되는이 t 적 수렴. 분포다시 인 표준 코시 [증명]). $A_j$

대조적으로, 지속적인 샘플링 과정의 어느 단계에서, 관측의 약 절반 $X_i$ 양쪽에 존재할 것이다 $\eta,$ 시퀀스 그래서 $H_j$ 샘플의 중앙값은 수렴하지 $\eta.$

융합이 부족 $A_j$ 와 융합 $H_j$ 다음과 같은 시뮬레이션에 의해 도시되어있다.

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

다음은 단계 목록입니다. $|X_i| > 1000.$ 왼쪽에있는 플롯 (수직 빨간색 점선)의 실행 평균에 대한 이러한 극단 관측치의 영향을 볼 수 있습니다.

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

추정에서 중요한 일관성 : Cauchy 모집단에서 샘플링 할 때 표본의 표본 평균은 $n = 10\,000$ $\eta$ $\eta,$

— BruceET
소스

1

조금만 살펴보면 시뮬레이션에서 표본 평균의 실패가 Cauchy 센터에 거의 확실하게 수렴하지 않는 것으로 나타납니다 (강도 대 약도 일관성).

— aleshing

9

충분한 관심을 끌지 못한다고 생각하는 일관성을 생각하는 것이 왜 중요한지에 대한 간단한 예는 지나치게 단순화 된 모델입니다.

이론적 인 예로, 실제 효과가 실제로 비선형 인 일부 데이터에 선형 회귀 모델을 적용하려고한다고 가정합니다. 그러면 공변량의 모든 조합에 대한 실제 평균과 예측 이 일치 하지는 않지만 보다 유연한 방법이 가능합니다. 다시 말해, 단순화 된 모델에는 더 많은 데이터를 사용하여 극복 할 수없는 단점이 있습니다.

— 클리프 AB
소스

선형 회귀 모델이 "항상 적합"하기 때문에 이것은 반드시 사실은 아닙니다.

y_{i} = {\hat{y}}_{i} + {\hat{e}}_{i}

$y_i=\hat{y}_i+\hat{e}_i$ . 모형이 문제가 없다고 주장 할 수는 있지만 "실수"는 실제로 잔차에 iid 정규 분포가 있다고 가정합니다.

— 확률

8

@BruceET은 이미 훌륭한 기술 답변을 제공했지만 그 해석에 대한 요점을 추가하고 싶습니다.

One of the fundamental concepts in statistics is that as our sample size increases, we can reach more precise conclusions about our underlying distribution. You could think of it as the notion that taking lots of samples eliminates the random jitter in the data, so we get a better notion of the underlying structure.

Examples of theorems in this vein are plentiful, but the most well-known is the Law of Large Numbers, asserting that if we have a family of i.i.d. random variables $(X_i)_{i\in\mathbb{N}} \$ and $\mathbb{E}[X_1] < \infty$ , then

\frac{1}{n} \sum_{k = 1}^{n} X_{k} \to E [X] a.s.

$\frac{1}{n} \sum_{k = 1}^n X_k \rightarrow \mathbb{E}[X] \ \ \ \text{a.s.}$

Now, to require an estimator to be consistent is to demand that it also follows this rule: As its job is to estimate an unknown parameter, we would like it to converge to that parameter (read: estimate that parameter arbitrarily well) as our sample size tends to infinity.

The equation

lim_{n \to \infty} P (| W_{n} - θ | > ϵ) = 0, \forall ϵ > 0 \forall θ \in Θ

$\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\epsilon > 0\ \forall\theta \ \in \Theta$

is nothing else but convergence in probability of the random variables $W_n$ towards $\theta$ , meaning that in some sense, a larger sample will get us closer and closer to the true value.

Now, if you want, you can look at it conversely: If that condition were to fail, then even with infinite sample size, there would be a "corridor" with positive width $[\theta - \varepsilon, \theta + \varepsilon]$ around $\theta$ and a nonzero probability that even with arbitrarily large sample size, our estimator will fall outside that corridor. And that would obviously violate the aforementioned idea, so consistency is a very natural condition on estimators to desire and enforce.

— Marc Vaisband
소스