두 분포 사이에 Hellinger 거리에 대한 편견 추정기가 있습니까?


20

하나 관찰 설정에서 X 1 , ... , X NX1,,Xn 농도와 분포 분포 Ff (에 기초 공정한 추정기가 있으면 궁금 X Xi 밀도 다른 분포에 Hellinger 거리의) F 0f0 , 즉 H ( f , f 0 ) = { 1 X F ( X ) F 0 ( X ) (D)(X)}1/2.

H(f,f0)={1Xf(x)f0(x)dx}1/2.

4
따라서 f0은 알려져 있고 고정되어 있습니다. 그러나 f는 파라 메트릭 패밀리에서 알려 졌거나 샘플에서 오는 f에 대해 모두 알고있는 비 파라 메트릭 프레임 워크에서이를 수행하고 있습니까? 대답을 시도 할 때 차이가 있다고 생각합니다.
Michael R. Chernick 2016 년

3
@MichaelChernick : f 에 대해 아는 f것은 샘플 X 1 , , X n 이라고 가정하십시오 X1,,Xn.
Xi'an

2
계산 된 것으로 생각하지 않습니다 (존재하는 경우). 존재하는 경우 AIC는 잃어버린 형제가 있습니다.

4
fff 0f0 이 분리 된 것으로 가정하면이 문제에 대한 공격이 실현 가능해 보입니다 . 이것은 명백한 추정기로 이어진다 (EDF와 f 0 사이의 Hellinger 거리 계산 f0). 부트 스트랩 핑 (이론적으로는 시뮬레이션을 통하지 않음)은 가능한 바이어스에 대한 핸들과 바이어스를 줄이거 나 제거하는 방법을 제공합니다. 수학적으로 다루기 쉽기 때문에 거리 자체가 아닌 제곱 거리 로 성공하기를 희망합니다 . 이산 f 의 가정은 f응용 프로그램에서 문제가되지 않습니다. 불연속 f 의 공간은 f어쨌든 조밀 한 부분 집합입니다.
우버

2
Rosenblatt의 f에 대한 "보나 피더 (bona fide)"의 추정되지 않은 추정기가 없다는 것을 기억해야한다 . 우리는 그것을 극복의 unbiadsed 추정 얻을 수 H ( F를 , f를 0 ) ? 모르겠어요 fH(f,f0)
Zen

답변:


5

합리적으로 넓은 비모수 적 분포의 분포에서 f에 대해 H 또는 H 2 중 하나의 편견 추정기 가 존재 하지 않습니다.HH2f

우리는 이것을 아름답고 간단한 주장으로 보여줄 수 있습니다.

Bickel and Lehmann (1969). 볼록한 가정에서 편견없는 추정 . 수학 통계 연보, 40 (5) 1523–1535. ( 프로젝트 유클리드 )

일부 분포 F 0 , FG 를 해당 밀도 f 0 , fg로 수정하십시오 . 하자 H ( F ) 나타내고 H ( F , F 0 ) 및하자 H ( X ) 의 일부 추정되는 H ( F ) 에 기초하여 N IID 샘플 은 X 서버 ~ F를 .F0FGf0fgH(F)H(f,f0)H^(X)H(F)nXiF

한다고 가정 H는 형태의 임의의 분포로부터 샘플 공평 M의 α : = α F + ( 1 - α ) G . 그러나 Q ( α )H^

Mα:=αF+(1α)G.
= H ( M α )= X 1X N H ( X )d M α ( x 1 ) d M α ( x n )= X 1X N H ( X ) [ α D F ( X 1 ) + ( 1 - α ) D G ( X 1 ) ][ α (D) F ( X의 N ) + ( 1 - α ) D G ( × n ) ]= α N E X ~ F N [ H ( X ) ] + + ( 1 - α ) N E X ~ G N [ H ( X ) ] , 그래서Q(α가)에 있어야 다항식α의 최대n도.
Q(α)=H(Mα)=x1xnH^(X)dMα(x1)dMα(xn)=x1xnH^(X)[αdF(x1)+(1α)dG(x1)][αdF(xn)+(1α)dG(xn)]=αnEXFn[H^(X)]++(1α)nEXGn[H^(X)],
Q(α)αn

이제 합리적인 경우를 전문화하고 해당 Q 가 다항식이 아님을 보여 드리겠습니다 .Q

하자 F 0 에서 일정한 밀도를 갖는 어떤 분배 될 수 [ - 1 , 1 ] : F 0 ( X ) = C 모두 | x | 1 . (. 그 밖에 동작 범위는 중요하지 않음)하자 F는 오직 어떤 분포에지지 될 수 [ - 1 , 0 ]G는 어떤 분포만을 지원 [ 0 , 1 ] .F0[1,1]f0(x)=c|x|1F[1,0]G[0,1]

이제 Q ( α )= H ( m의 α , F 0 )= 1 Rm α ( x ) f 0 ( x ) dx= 1 0 1기음α f ( x ) dx1 0기음( 1 α ) g ( x ) dx= 1 α BF1αBG,

Q(α)=H(mα,f0)=1Rmα(x)f0(x)dx=101cαf(x)dx10c(1α)g(x)dx=1αBF1αBG,
where BF:=Rf(x)f0(x)dxBF:=Rf(x)f0(x)dx and likewise for BGBG. Note that BF>0BF>0, BG>0BG>0 for any distributions FF, GG which have a density.

1αBF1αBG1αBF1αBG is not a polynomial of any finite degree. Thus, no estimator ˆHH^ can be unbiased for HH on all of the distributions MαMα with finitely many samples.

Likewise, because 1αBF1αBG1αBF1αBG is also not a polynomial, there is no estimator for H2H2 which is unbiased on all of the distributions MαMα with finitely many samples.

This excludes pretty much all reasonable nonparametric classes of distributions, except for those with densities bounded below (an assumption nonparametric analyses sometimes make). You could probably kill those classes too with a similar argument by just making the densities constant or something.


13

I don't know how to construct (if it exists) an unbiased estimator of the Hellinger distance. It seems possible to construct a consistent estimator. We have some fixed known density f0f0, and a random sample X1,,XnX1,,Xn from a density f>0f>0. We want to estimate H(f,f0)=1Xf(x)f0(x)dx=1Xf0(x)f(x)f(x)dx

H(f,f0)=1Xf(x)f0(x)dx=1Xf0(x)f(x)f(x)dx
=1E[f0(X)f(X)],
=1E[f0(X)f(X)],
where XfXf. By the SLLN, we know that 11nni=1f0(Xi)f(Xi)H(f,f0),
11ni=1nf0(Xi)f(Xi)H(f,f0),
almost surely, as nn. Hence, a resonable way to estimate H(f,f0)H(f,f0) would be to take some density estimator ^fnfn^ (such as a traditional kernel density estimator) of ff, and compute ˆH=11nni=1f0(Xi)^fn(Xi).
H^=11ni=1nf0(Xi)fn^(Xi).

3
@Zen: Good point! I consider this answer as the answer because it made me realise HH sounds very much like a standard deviation, for which there exists no unbiased estimator. As for the variance of ˆH2nH^2n, no worries: E[(f0(X)/f(X))2]=1E[(f0(X)/f(X))2]=1 implies that this estimator has a finite variance.
Xi'an

1
Thanks for the clarification about the variance of the estimator, Xi'an!
Zen

2
Some work on other consistent estimators: (a) arxiv.org/abs/1707.03083 and related work based on k-NN density estimators; (b) arxiv.org/abs/1402.2966 based on correcting kernel density estimates; (c) ieeexplore.ieee.org/document/5605355 based on a connection to classification. (Many of these are based on samples from both f and f0, because that's the work I knew about offhand, but I think there are variants for known f0.)
Dougal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.