요약 통계 만 사용 가능한 경우 추정을 수행하는 방법은 무엇입니까?


17

이것은 부분적으로 다음 질문 과 그에 따른 토론에 의해 동기가 부여됩니다 .

iid 샘플 X i ~ F ( x , θ ) 가 관찰되었다고 가정합니다 XiF(x,θ). 목표는 θ 를 추정하는 것입니다 θ. 그러나 원본 샘플은 사용할 수 없습니다. 우리가 대신해야하는 샘플의 통계입니다 T 1 , . . . , T kT1,...,Tk . kk 가 고정 되었다고 가정하십시오 . θ 는 어떻게 추정 θ합니까? 이 경우 최대 가능성 추정치는 무엇입니까?


1
경우 T = F ( X I )Ti=f(Xi) 공지 된 함수에 대한 F를f 다음의 분포 적어 수 T ITi 및 최대 우도 추정이 일반적인 방법으로 도출된다. 그러나 당신은 T i 가 무엇인지 정확하게 설명하지 않았습니다 Ti.
Stéphane Laurent

3
이 때의 경우에 관심 T가 나는 = F ( X 1 , . . . , X N )Ti=f(X1,...,Xn) 공지위한 Ff . 이것은 내가 말했다 때 무슨 의미가 있었다 T i가Ti 샘플 통계가 있습니다.
mpiktas

T iTiT j 의 차이점은 무엇 Tj입니까?
Stéphane Laurent

2
죄송합니다, 그 했어야 f를 내가 , 아니다 F . 우리는 여러 함수 f i 를 가지고 있는데, 이것은 전체 샘플을 인수로 취합니다. fiffi
mpiktas

이것이 최대 엔트로피를 위해 설계된 것이 아닙니까?
확률 론적

답변:


14

이 경우 다음 가정 / 제한 하에서 가능성 (및 결과적으로 MLE ) 의 ABC 근사를 고려할 수 있습니다 .

인수. 원래 샘플 크기 n 이 알려져 있습니다.n

잦은 추정의 품질이 수렴 측면에서 표본 크기에 의존하므로 원래 표본 크기를 알지 못하면 임의로 좋은 추정자를 얻을 수 없다는 점을 감안할 때 이것은 가정이 아닙니다.

아이디어는 사후 분포로부터 샘플을 생성하는 θMLE의 근사치를 생성하기 위해를 하면 같이 기술 샘플링 중요도를 사용할 수있다 [1] 또는에 균일 종래 고려 θ 적합한에서 지원 [2] 와 같이 설정하십시오 .θθ

[2]의 방법을 설명하겠습니다. 먼저 ABC 샘플러를 설명하겠습니다.

ABC 샘플러

하자 F ( | θ가 ) 시료 생성하는 모델이 θ Θ는 (추정하기)위한 파라미터 T는 (샘플들의 함수) 통계하고 T 0 ABC 방송 용어에서 관찰 된 통계 수를 이것은라고 요약 통계를 , ρ 메트릭 될 π ( θ ) 에 사전 분포 θε > 0 허용 오차를. 그리고, ABC- 거부 샘플러는 다음과 같이 구현 될 수있다.f(|θ)θΘTT0ρπ(θ)θϵ>0

  1. π ( ) 에서 표본 θ .θπ()
  2. 모형 f ( | θ ) 에서 크기 n 의 표본 x 를 생성합니다 .xnf(|θ)
  3. 계산 T * = T ( x ) .T=T(x)
  4. 경우 ρ ( T * , T 0 ) < ε은 , 받아 들일 θ는 * 의 후방에서 시뮬레이션으로 θ .ρ(T,T0)<ϵθθ

이 알고리즘은 T ( x ) = T 0이 주어지면 θ 의 사후 분포로부터 근사 샘플을 생성합니다 . 따라서 가장 좋은 시나리오는 통계 T 가 충분하지만 다른 통계를 사용할 수있는 경우입니다. 이에 대한 자세한 설명은 이 백서를 참조하십시오 .θT(x)=T0T

이제 일반적인 프레임 워크에서 지원에 MLE이 포함 된 균일 한 우선 순위를 사용하는 경우 MAP ( Maximum a posteriori )는 MLE (Maximum Likelihood Estimator)와 일치합니다. 따라서 ABC 샘플러 이전에 적절한 유니폼을 고려하면 MAP이 MLE과 일치하는 사후 분포의 대략적인 샘플을 생성 할 수 있습니다. 나머지 단계는이 모드를 추정하는 것으로 구성됩니다. 이 문제는 CV에서 예를 들어 "다변량 모드의 계산 효율적인 추정" .

장난감 예

하자 ( X 1 , . . . , X의 n은 ) (A)로부터 샘플 수 N ( μ , 1 ) 이 샘플에서 사용할 수있는 유일한 정보가된다고 가정 ˉ X = 1(x1,...,xn)N(μ,1)n n j = 1 xj입니다. 하자ρ는유클리드에서 측정 할Rε=0.001. 다음 R 코드는n=100μ=0, 크기1000의 사후 분포의 샘플,μ에대한 균일 성(0.3,0.3)및 후방 샘플의 모드 추정을위한 커널 밀도 추정기 (MAP = MLE).x¯=1nnj=1xjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

보시다시피, 작은 공차를 사용하면 MLE의 근사값이 매우 우수합니다 (이 간단한 예에서는 통계가 충분하다고 가정 할 수 있음). 요약 통계의 선택이 중요하다는 점에 유의해야합니다. Quantiles는 일반적으로 요약 통계량에 적합한 선택이지만 모든 선택 항목이 근사값을 산출하는 것은 아닙니다. 요약 통계량이 그다지 유익하지 않은 경우 근사치의 품질이 좋지 않을 수 있으며, 이는 ABC 커뮤니티에 잘 알려져 있습니다.

업데이트 : 비슷한 접근법이 최근에 Fan et al. (2012) . 논문에 대한 논의는 이 항목 을 참조하십시오 .


2
(+1) MLE과 MAP의 관계에 대한 올바른 결과 를 명시 하고 마지막 단락의 경고에 대해 (다른 이유로). 이 경고를보다 명확하게하기 위해, 현재 통계가 부수적이거나 거의 그렇지 않으면이 (또는 어떤!) 접근법도 비참하게 실패 할 것입니다. 예를 들어 장난감 예와 T = i ( X iˉ X ) 2 를 고려할 수 있습니다 . T=i(XiX¯)2
추기경

1
+1 @procrastinator 예를 들어 모델에 사용할 수있는 경우 충분한 통계를 사용할 수 있다고 간단하게 말하려고했습니다. 그러나 당신의 광범위한 대답이 그것을 덮은 것 같습니다.
Michael R. Chernick

한가지 간단한 질문에 따르면, 균일 한 사전은 MLE를 지원해야한다고 언급합니다. 그러나 MLE는 확률 적으로 만 한정되는 확률 변수입니다. 즉 양의 확률로 범위가 지정된 집합 외부에있을 수 있습니다.
mpiktas

1
@mpiktas 특정 샘플의 경우, 먼저 유니폼의 적절한지지를 선택해야합니다. 샘플을 변경하면 변경 될 수 있습니다. 이것은 베이지안 절차가 아니라 수치 방법으로 사용하기 때문에 이전의 선택을하는 데 아무런 문제가 없습니다. 이전의지지가 작을수록 좋습니다. 이렇게하면 ABC 샘플러의 속도가 빨라지지만 MLE의 위치에 대한 확실한 단서가 없다는 정보가 모호 할 경우 더 큰 지원이 필요할 수 있습니다 (가격을 지불해야 함).

@mpiktas In the toy example, you can use, for instance, a uniform prior with support on (1000000,1000000)(1000000,1000000) or a uniform prior with support on (0.1,0.15)(0.1,0.15) obtaining the same results but with extremely different acceptance rates. The choice of this support is ad hoc and it is impossible to come up with a general-purpose prior given that the MLE is not stochastically bounded, as you mention. This choice can be considered as a lever of the method that has to be adjusted in each particular case.

5

It all depends on whether or not the joint distribution of those TiTi's is known. If it is, e.g., (T1,,Tk)g(t1,,tk|θ,n)

(T1,,Tk)g(t1,,tk|θ,n)
then you can conduct maximum likelihood estimation based on this joint distribution. Note that, unless (T1,,Tk)(T1,,Tk) is sufficient, this will almost always be a different maximum likelihood than when using the raw data (X1,,Xn)(X1,,Xn). It will necessarily be less efficient, with a larger asymptotic variance.

If the above joint distribution with density gg is not available, the solution proposed by Procrastinator is quite appropriate.


1

The (frequentist) maximum likelihood estimator is as follows:

For FF in the exponential family, and if your statistics are sufficient your likelihood to be maximised can always be written in the form: l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
where ,, is the scalar product, TT is the vector of suff. stats. and ψ()ψ() and ϕ()ϕ() are continuous twice-differentiable.

The way you actually maximize the likelihood depends mostly on the possiblity to write the likelihood analytically in a tractable way. If this is possible you will be able to consider general optimisation algorithms (newton-raphson, simplex...). If you do not have a tractable likelihood, you may find it easier to compute a conditional expection as in the EM algorithm, which will also yield maximum likelihood estimates under rather affordable hypotheses.

Best


For problems I am interested in, analytical tractability is not possible.
mpiktas

The reason for non-tractability then conditions the optimization scheme. However, extensions of the EM usually allow to get arround most of these reasons. I don"t think I can be more specific in my suggestions without seeing the model itself
julien stirnemann
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.