MLE가 평균의 치우친 추정치를 생성하는 예가 있습니까?


17

편향된 평균에 대한 MLE 추정기의 예를 제공 할 수 있습니까?

규칙적 조건을 위반하여 일반적으로 MLE 추정기를 위반하는 예를 찾고 있지 않습니다.

인터넷에서 볼 수있는 모든 예제는 분산을 참조하며 평균과 관련된 것을 찾을 수없는 것 같습니다.

편집하다

@MichaelHardy는 특정 제안 모델에서 MLE를 사용하여 균일 분포 평균의 편향 추정값을 얻는 예제를 제공했습니다.

하나

https://ko.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

MLE은 다른 제안 된 모델 하에서 평균적으로 균일 한 최소 편향 평균 추정값임을 제안합니다.

이 시점에서 모델 중립적 인 샘플 평균 추정 기와는 반대로 매우 가정 된 모델에 의존하는 경우 MLE 추정의 의미가 여전히 명확하지 않습니다. 결국 나는 모집단에 대한 무언가를 추정하는데 관심이 있으며 실제로 가정 된 모형의 모수의 추정에 관심이 없습니다.

편집 2

@ChristophHanck가 추가 정보가 바이어스를 도입 한 모델을 보여 주었지만 MSE를 줄이지는 못했습니다.

추가 결과도 있습니다 :

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (슬라이드 2) http : / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (슬라이드 5)

"가장 효율적인 비 편향 추정치 θ의 θ가 존재한다면 (즉, θθ는 편향되지 않고 그 분산은 CRLB와 동일하다) 추정의 최대 우도 방법이이를 생성 할 것이다."

또한 효율적인 추정기가 존재하면 ML 추정기입니다.

자유 모델 모수를 갖는 MLE는 편견이없고 효율적이기 때문에 정의 상으로는 이것이 "최대 가능성 추정기"입니까?

편집 3

@AlecosPapadopoulos는 수학 포럼에 Half Normal 분포가있는 예제를 가지고 있습니다.

/math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

균일 한 경우와 같이 매개 변수를 고정하지 않습니다. 비록 그가 평균 추정기의 편견을 보여주지는 않았지만, 그것이 해결 될 것이라고 말하고 싶습니다.


10
제로와 세타에서 제복의 평균.
Christoph Hanck

1
나는 "인구에 관한 어떤 것을 추정하는 것"과 "가설을 세운 모델의 매개 변수"사이의 구별을 따를 수 없습니다. 모든 매개 변수 통계에서 모집단을 일부 매개 변수로 매개 변수화합니다. 물론, 우리는 잘못된 사양 문제를 겪을 수도 있지만, 현재 문제와 관련이없는 것 같습니다.
Christoph Hanck

5
예를 들어, 모집단은 평균 및 분산과 같은 모수 / 모멘트로 특성화 할 수 있습니다 (예 : 일반 모집단에 충분 함). 그리고 : 나는 사람들이이 포럼의 다른 어느 누구보다 당신과 거의 비슷하지 않다고 생각하지 않습니다.
Christoph Hanck

2
"파라미터"와 "평균"사이의 전환에 대한 명백한 손의 슬릿에 대해 불만이 있다면 , 밀도가 1 인 평균 로 특정 음이 아닌 분포를 정의하겠습니다.μ 의지지에[0,2μ]...12μ[0,2μ]
좀 벌레

1
편집 2와 관련하여 이러한 많은 결과는이 스레드에서 설명한 균일 한 예제에 맞지 않는 규칙 성 조건에서 파생되며, 샘플 공간은 매개 변수에 따라 다릅니다.
Christoph Hanck

답변:


32

Christoph Hanck는 그의 제안 된 예의 세부 사항을 게시하지 않았습니다. I는 그 간격의 균일 한 분배 수단을 가지고 IID가 샘플에 기초하여 X 1 , ... , X n은 크기 이상의 N = 1.[0,θ],X1,,Xnn=1.

평균은 입니다.θ/2

평균의 MLE는 max{X1,,Xn}/2.

그 때문에 바이어스 그래서 E ( 최대 / 2 ) < θ / 2.Pr(max<θ)=1,E(max/2)<θ/2.

추신 : 아마도 우리는 평균의 최선의 불편 추정 있음을 유의 입니다 하지 표본 평균, 오히려입니다 N + 1θ/2일부 평균의 경우 표본 평균이1보다 작기 때문에 표본 평균은θ/2의추정량입니다.

n+12nmax{X1,,Xn}.
θ/2과 명확 불가능θ/2미만으로최대/2PS의 단부12max{X1,,Xn},θ/2max/2.

파레토 분포가 또 다른 경우라고 생각합니다. 확률 측정 값은 다음과 같습니다. 기대 값은α입니다.

α(κx)α dxx for x>κ.
예상 값의 MLE는 n입니다.αα1κ. 여기서={X1,...,XN}.
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

평균에 대한 MLE의 예상 값을 계산하지 않았으므로 그 편향이 무엇인지 모릅니다.


12
Cagdas, countexample을 요청한 다음 다른 것을 제안하는 것을 거부하는 것은 합법적이지 않습니다! 그것은 붉은 색이 아닌 과일의 예를 요구하고 블루 베리가 보이고 블루 베리를 좋아하지 않기 때문에 계산에 포함되지 않는다고 말하는 것과 같습니다.
whuber

7
그것은 당신이 묻는 질문과 관련이 없습니다.
whuber

8
@CagdasOzgenc : MLE의 바이어스 여부는 모델에 따라 다릅니다. 모델이없는 MLE과 같은 것은 없습니다. 그리고 모델을 변경하면 MLE이 변경됩니다.
Michael Hardy

8
@CagdasOzgenc 여기에 민주적 인 질문이 있습니다. 표본 평균은 무엇을위한 편견 추정량입니까? 추정 할 모수를 가지려면 모형이 필요합니다.
Matthew Drury

9
iid 표본의 평균은 모집단 평균의 편견없는 추정값이지만, 편견없는 것의 추정값을 말하는 데 필요한 것보다 더 많은 구조가없는 것의 최대 가능성 추정값에 대해서는 말할 수 없습니다.
Michael Hardy

18

다음은 일부 사람들이 놀랍게 생각할 수있는 예입니다.

로지스틱 회귀 분석에서 비 결정적 결과를 갖는 유한 표본 크기 (예 : )의 경우 추정 회귀 계수는 바이어스 될뿐만 아니라 회귀 계수의 평균은 실제로 정의되지 않습니다.0<pi<1

이는 유한 한 표본 크기에 대해 결과의 완벽한 분리를 얻을 수있는 양의 가능성 (회귀 매개 변수의 수와 비교하여 표본 수가 많은 경우 매우 적음)이 있기 때문입니다. 이 경우, 추정 된 회귀 계수가 될 것입니다 또는 . 하나의 긍정적 인 확률을 갖는 - 또는하면 기대 값이 정의되는 것을 의미한다.

이 특정 문제에 대한 자세한 내용은 Hauck-Donner-effect를 참조하십시오 .


1
이것은 매우 영리합니다. 로지스틱 회귀 계수의 MLE가 Hauck-Donner 효과의 비 발생에 대해 조건부 편향인지 궁금합니다.
gung-Monica Monica 복원

3
@gung : 짧은 대답 : Hauck-Donner 효과를 무시해도 절대 회귀 계수에는 여전히 상향 바이어스가 있습니다 (즉, 음의 계수는 하향 바이어스, 양의 상향 바이어스). 흥미롭게도, 추정 확률에서 0.5에 대한 편향이있는 것으로 보입니다. 이 게시물 에 대해 글을 쓰기 시작 했지만 추정 된 확률의 편견에 대한 결과를 올리지 않았습니다.
Cliff AB

10

@MichaelHardy가 요점을 지적했지만, 여기 에 다른 모델이 있지만 최대 값의 MLE (따라서 불변에 의한 평균 의 MLE )가 편향되지 않은 이유에 대한 더 자세한 주장 이 있습니다. 아래 편집).θ/2

균일 분포 의 상한을 추정합니다 . 여기서, y ( n ) 은 랜덤 샘플 y에 대한 MLE 입니다. 우리는 y ( n ) 이 편향되지 않았 음을 보여줍니다 . cdf는 F y ( n ) ( x )입니다.U[0,θ]y(n)yy(n) 따라서 밀도는 fy(n)(x)={n입니다.

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
, E [ Y ( n ) ]
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

편집 : 실제로 MLE가 하한 및 상한 b 모두를 알 수없는 경우 평균에 대해 편향되지 않은 경우가 있습니다 (주석의 설명 참조) . 그리고, 최소 Y ( 1 ) MLE를위한 (상세 생략) 기대치와, E ( Y ( 1 ) ) = N + BabY(1)a 동안 E(Y(N))=NB+

E(Y(1))=na+bn+1
이므로(a+b)/2에대한 MLE은 Y ( 1 ) +Y ( n )입니다
E(Y(n))=nb+an+1
(a+b)/2 기대 값이 E 인 2 ( Y ( 1 ) + Y ( n ))
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

편집 2 : Henry의 요점을 자세히 설명하기 위해 평균 추정량의 MSE에 대한 약간의 시뮬레이션이 있습니다. 하한을 0으로 알 수없는 경우 MLE은 편견이 없지만 두 변형에 대한 MSE는 동일하다는 것을 보여줍니다 , 하한에 대한 지식을 통합 한 추정기는 변동성을 줄입니다.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

Wikipedia는 다른 모델을 제안하기 때문에. 그것이 나의 혼란이있는 곳입니다.
Cagdas Ozgenc

a=0(max+0)/2

2
세부 사항을 해결하지는 않았지만 최대 값이 최대 값을 과소 평가하는 것과 같은 양만큼 최소값이 하한값을 과소 평가하면 해당 모델의 MLE가 편향되지 않을 수 있습니다.
Christoph Hanck

4
@CagdasOzgenc : 편견이 더 나은 유일한 또는 가장 중요한 척도가 아닙니다 . 지지의 한쪽 끝을 정확하게 알고 있으면 평균을 추정 할 때 오차 사이의 균형을 잃을 수 있지만 범위의 더 나은 추정치 (예
Henry

6
최대 가능성 추정값이 작은 표본 크기에 대한 모든 기준에서 항상 "최선"인 것은 아닙니다. 그래서 무엇? 그들도 척하지 않습니다. 실제 표본 크기 근처에있는 표본 크기에 대한 일부 기준에 따라 더 나은 특성을 갖는 문제에 대해 다른 추정기를 사용하려면 자유롭게 할 수 있습니다. 나는 그렇게하고 다른 사람들도 그렇게합니다. MLE이기 때문에 모든 상황에서 MLE 사용이 정당하다고 주장하는 사람은 없습니다.
jbowman

5

OP가 참조 한 math.se 에서 내 대답 에서 누락을 완료하면 ,

n

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.


2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB

1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO

3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.