유한 가우시안 혼합물과 가우시안 사이의 거리는 얼마입니까?


12

알려진 가중치, 평균 및 표준 편차를 가진 유한하게 많은 가우시안이 혼합되어 있다고 가정합니다. 평균이 같지 않습니다. 물론 모멘트는 성분 모멘트의 가중 평균이므로 혼합물의 평균 및 표준 편차를 계산할 수 있습니다. 혼합물은 정규 분포가 아니지만 정상으로부터 얼마나 멀리 떨어져 있습니까?

평균과 분산이 동일한 가우시안 대 2 표준 편차로 분리 된 가우스 혼합

위의 이미지는 표준 편차 (구성 요소)와 동일한 평균 및 분산을 가진 단일 가우시안으로 분리 된 성분 평균을 갖는 가우스 혼합의 확률 밀도를 보여줍니다 .2

평균과 분산이 동일한 가우시안 대 1 표준 편차로 구분 된 가우시안 혼합

여기서 평균은 표준 편차로 분리되며 가우스에서 혼합물을 눈으로 분리하기가 더 어렵습니다.1


동기 부여 : 나는 게으른 사람들과 그들이 측정하지 않은 실제 분포에 대해 동의하지 않습니다. 나도 게으르다. 분포도 측정하고 싶지 않습니다. 나는 서로 다른 수단을 가진 가우시안의 유한 한 혼합이 옳지 않은 가우시안이라고 말하고 있기 때문에 그들의 가정이 일관성이 없다고 말할 수 있기를 원합니다. 꼬리의 점근 적 모양이 잘못되었다고 말하고 싶지는 않습니다. 이들은 평균의 몇 가지 표준 편차 내에서만 합리적으로 정확해야하는 근사치이기 때문입니다. 성분이 정규 분포에 의해 대략 근사하면 혼합물이 그렇지 않다고 말하고 싶습니다.이를 정량화하고 싶습니다.


CDF, 거리, 지구 발동기 거리, KL 발산 등 의 차이가 최고입니다 . 다른 조치. 혼합물과 동일한 평균 및 표준 편차를 가진 가우시안까지의 거리 또는 가우시안과의 최소 거리를 알고 기쁩니다. 그것이 도움이된다면 , 더 작은 무게가 보다 큰 혼합물이 가우스 인 경우로 제한 할 수 있습니다 . 2 1 / 4L121/4


2
혼합물이 nrmal에 매우 가까운 경우 정규 근사법을 사용하는 것이 게으름이 아니며 간단하며 좋은 것일 수 있습니다. 그러나 귀하의 예에서는 가장 가까운 근사치와 비교할 때 중앙의 nromal보다 평평하고 중간에서 더 많이 퍼지고 꼬리에서 더 짧은 혼합물을 보여줍니다. 두 cdf의 통합 된 차이점을보고 싶을 것 같습니다. 최대 불일치가 크지 않을 수도 있지만 한 지역의 평균 불일치가 비교적 클 수 있기 때문에 KS 측정 값이 아닙니다.
Michael R. Chernick

정규 근사치보다 가우스 혼합에 대한 통계적으로 유의미한 증거가 있다고 가정 할 수 있습니까? 차이가 통계적으로 유의 한 것으로 알려진 경우 차이가 실제적으로 중요한지 여부 만 걱정하면됩니다. Michaels는 Anderson-Darling 통계와 같은 제안을 시작하는 것이 합리적입니다.
Dikran Marsupial

@Dikran Marsupial : 인구가 다른 수단을 갖는 것으로 알려진 하위 그룹으로 나뉩니다. 구성 요소 수단은 높은 정확도로 알려져 있습니다. 구성 요소 평균과 구성 요소 표준 편차의 차이 사이의 비율은 다양하지만 , 관심있는 일부 경우 와 사이 일 수 있습니다 . (2)1/22
Douglas Zare

3
실제로 모델 선택 질문을하는 것처럼 들립니다. 모델에 대한 일부 데이터가 주어지면 혼합물과 비교하여 정규 분포를 언제 선호해야합니까 (또는 일반적으로 혼합물 성분의 수를 어떻게 선택해야합니까)? 이와 같은 질문을 재구성하면이 사이트에서 수백 개의 관련 질문에 액세스 할 수 있습니다.
whuber

@whuber : 법선까지의 거리는 단일 가우시안에서 혼합물을 분리하는 것을 목표로하는 테스트의 (평균) 거듭 제곱으로 표현 될 수 있습니다.
시안

답변:


9

KL 분기는 혼합물이 분기되는 단일 가우시안 인 기본 분포를 가지고 있기 때문에 자연 스러울 것입니다. 반면에 문제가 특별한 경우 인 두 가우스 혼합 간의 KL 분기 (또는 대칭 '거리'형식)는 일반적으로 다루기 어려운 것 같습니다. Hershey and Olson (2007) 은보다 쉬운 범위를 제공 할 수있는 변형 방법을 포함하여 사용 가능한 근사치를 합리적으로 요약 한 것으로 보입니다.

그러나 실제로 혼합 일 때 가우시안이라고 가정 할 때의 악영향에 대한 논쟁을 원한다면 실제로 관심있는 결과에 대해 좋은 아이디어를 갖는 것이 가장 좋습니다. '(@ Michael-Chernick의 요점입니다). 예를 들어, 테스트 결과, 간격 또는 이와 유사한 결과가 있습니다. 혼합물의 두 가지 명백한 효과는 과대 산포 (overdispersion)이며, 이는 거의 보장되며, 다중 양식 (multimodality)으로 인해 최대치를 혼동 할 수 있습니다.


1

잘못된 분포 사양의 결과를 고려한 후속 조치를하겠습니다. KL Divergence와 같은 일반적인 거리 측정을 사용하는 대신, 결과에 따른 "차이"의 사용자 정의 측정을 평가할 수 있습니다.

예를 들어 분포가 위험 계산에 사용되는 경우 (예 : 실패 확률이 충분히 낮은 것으로 판단하는 경우) 가장 중요한 것은 극단적 꼬리의 확률 계산입니다. 이는 수십억 달러 프로그램 결정과 관련이있을 수 있으며 삶과 죽음의 문제와 관련이 있습니다.

정규 가정이 가장 정확하지 않은 위치는 어디입니까? 대부분의 경우 극단적 인 꼬리에서 이러한 중요한 위험 계산에 중요한 유일한 곳입니다. 예를 들어, 실제 분포가 평균은 같지만 표준 편차가 다른 법선의 혼합 인 경우 혼합 분포의 꼬리는 평균 및 표준 편차가 같은 정규 분포의 꼬리보다 더 뚱뚱합니다. 이로 인해 극단의 확률에 대한 규모 차이 (위험의 과소 평가)가 쉽게 나타날 수 있습니다.

예를 들어, 중요한 레벨 에서 관련 차이 측정은 있습니다. 이 경우 나머지 배포에서 계약이 얼마나 좋은지는 중요하지 않습니다.P ( X M i x t u r e > U ) P ( X N o r m a l > U )UP(XMixture>U)P(XNormal>U)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.