관측 수준 Mahalanobis 거리의 분포


23

다변량 정규 iid 샘플 가 있고 ( 가중치에 대한 행렬 를 사용하여 샘플 포인트에서 벡터 까지의 마할 라 노비스 거리 [제곱]의 일종 ), 의 분포 는 표본 공분산 행렬 사용하여 표본 평균 )?d 2 i ( b , A ) = ( X i - b ) ' A - 1 ( X i - b ) a A엑스1,,엑스(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
a에이 ˉ X S나는2(엑스¯,에스)엑스¯에스

나는 주장이 있음을 종이에서 찾고 :하지만, 이것은 분명히 잘못된 것입니다 분포가 얻어했을 제 (알 수없는) 인구 평균 벡터를 사용하여 공분산 행렬. 샘플 아날로그가 연결되면 Hotelling 분포 또는 스케일 분포 또는 이와 유사한 것을 얻을 수 있지만 . Muirhead (2005) , Anderson (2003) 또는 Mardia, Kent and Bibby (1979, 2003) 에서 정확한 결과를 찾을 수 없었습니다. χ 2 p d 2 i ( μ , Σ ) T 2 F ( ) χ 2 pχ2χ2나는2(μ,Σ) 2에프()χ2. 분명히 다변량 정규 분포가 완벽하고 다변량 데이터를 수집 할 때마다 쉽게 얻을 수 있기 때문에이 사람들은 이상치 진단에 신경을 쓰지 않았습니다.

그보다 상황이 더 복잡 할 수 있습니다. Hotelling  2 분포 결과는 벡터 부분과 행렬 부분 사이의 독립성을 가정하고; 이러한 독립성은 엑스¯에스 를 유지하지만 더 이상 엑스나는S를 유지하지 않습니다 에스.


d_i ^ 2 의 정의에서 di2여전히 X나는 를 임의의 변수로 보거나 이제 고정 벡터로 취급합니까? 아래 첨자를 포함하면 후자를 제안하지만 조금 이상하게 보입니다.
whuber

1
커프스 쪽의 약간의 참고 사항이지만 X_i- 엑스나는엑스¯\ mu에 대해 보조적 μ이며 나는나는2(엑스¯,에스) 는 고정 상수와 같습니다 ( 또는 이와 비슷 해야합니다 .) 거의 확실합니다.
추기경

1
@ whuber-아마도 새로운 관찰이 아니라 샘플의 관찰을 사용하여 계산된다는 것을 강조하고 싶습니까?
jbowman

1
@whuber, 대략 jbowman의 말을 따라-관찰 수준 통계임을 나타냅니다 (샘플 평균과 같은 샘플 수준 통계와 반대).
StasK

1
의 분포는 베타, ,하지만 여전히 의 분포를 찾고 있습니다. 의 분포는 독립적이지 않습니다. 나는2(엑스¯,에스)/(1)2나는2(엑스¯,에스)(/2,(1)/2)나는2(μ,에스)나는2

답변:


18

Mahalanobis 거리를 활용 하여 가우스 혼합 모델링을 확인하십시오 ( 대체 링크 ). 13 페이지 두번째 열을 참조하십시오. 저자는 또한 배포판을 도출하기위한 증거도 제공했습니다. 분포는 베타로 조정됩니다. 이것이 효과가없는 경우 알려주십시오. 그렇지 않으면 내일 SS Wilks 책에서 힌트를 확인할 수 있습니다.


4
신문에 주어진 대답은 : . 감사! (1)2나는2(엑스¯,에스)(2,12)
StasK

9

3 가지 관련 분포가 있습니다. 언급 한 바와 같이, 실제 모집단 모수가 사용되는 경우 분포는 카이 제곱됩니다 . 이것은 또한 추정 된 모수와 큰 표본 크기를 갖는 점근 분포입니다.에프=

(2)(1)2이자형에이(2,(1)2).
엑스나는
(2()((1)(+1))에프(,)

@JoeSullivan 사이트에 오신 것을 환영합니다. 나는 을 사용하는 자유를 가져 갔다에이이자형엑스

F 공식에 대한 참조를 줄 수 있습니까?
eyaler

1
하나의 관련 참조, Hardin, Johanna 및 David M. Rocke의 섹션 3. 2005.“견고한 거리의 분포.”전산 및 그래픽 통계 저널 14 (4) : 928–46. doi : 10.1198 / 106186005X77685.
Josef
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.