윌크스 정리와 유한 한 혼합으로 가우스 수를 찾는가?


11

독립적이고 동일하게 분포 된 일 변량 관측 값 x 가 어떻게 생성 되었는지에 대한 두 가지 가설 이 있다고 가정합니다 .엑스엑스

: x 는 평균과 분산을 알 수없는 단일 가우스 분포에서 도출됩니다.H0엑스

: x 는 평균, 분산 및 혼합 계수가 알려지지 않은 두 가우스 혼합에서 도출됩니다.H엑스

만약 내가 제대로 이해하고, 이러한 것을 모델 이후 중첩 된 모델입니다 의 관점에서 설명 될 수 있습니다 나타냅니다 H 당신이 동일 또는 두 개의 가우시안 중 하나 제로로 혼합 계수를 제한하는 두 개의 가우시안의 매개 변수를 제한하는 경우는 . H0H

따라서 EM 알고리즘을 사용하여 의 매개 변수를 추정 한 다음 Wilks Theorem을 사용하여 H A 의 데이터 가능성이 H 0 의 데이터 가능성 보다 유의하게 큰지 여부를 판별 할 수 있어야합니다 . EM 알고리즘이 여기서 최대 가능성으로 수렴 할 것이라는 가정에는 약간의 믿음의 도약이 있지만, 그것은 내가 기꺼이 한 것입니다.HHH0

나는 몬테카를로 시뮬레이션에서 H 0 (제 2 가우스의 평균과 분산 및 혼합 파라미터) 보다 3 자유도가 더 높다고 가정하여 이것을 시도했습니다 . H 0 에서 데이터를 시뮬레이션했을 때 P- 값 분포가 실질적으로 균일하지 않고 작은 P- 값이 풍부 해졌습니다. (EM이 실제 최대 가능성으로 수렴하지 않으면 정확한 반대가 예상됩니다.)이 편견을 일으키는 Wilks 정리를 적용 할 때 어떤 문제가 있습니까?HH0H0

답변:


8

μ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 과 σ1=σ2) 또는 ρ{0,1}.
ρρ

귀무 가설은 전체 모수 공간의 복잡한 부분 집합이며, 귀무 하에서는 모수를 식별 할 수 없습니다. Wilk의 정리를 얻기 위해 필요한 일반적인 가정, 특히 로그 가능성의 적절한 Taylor 확장을 구성 할 수 없습니다.

나는이 특정 문제에 대한 개인적인 경험이 없지만 여기서는 매개 변수가 null 아래에서 "사라지는"다른 경우를 알고 있습니다.이 경우도 마찬가지입니다. . 빠른 검색은 무엇보다 관련성이 높은 논문을 제공했으며 혼합 모델과 관련하여 우도 비율 테스트 사용에 대한 추가 참조를 찾을 수있는 위치를 제공했습니다.


감사. 나는 이것과 같은 것이 문제가 될 것이라고 생각했지만 확실하지 않았다. 나는 윌크스 정리의 목적을 위해 중첩 모델을 구성하는 것의 더 좋은 점에 대해 약간 혼란 스러웠다. 널 (null) 아래의 식별 가능성에 대한 좋은 지적.
dsimcha

4

혼합 성분의 수에 대한 추론은 (a) 모수 이후 Wilks 정리에 필요한 규칙적 조건을 충족시키지 못합니다.ρ매개 변수 공간의 경계에 있고 (b) 매개 변수는 널 (null) 아래에서 식별 할 수 없습니다. 이것은 일반화 가능성 비율의 분포가 알려져 있지 않다는 것은 아닙니다! 설정의 5 개 매개 변수를 모두 알 수없고 더 중요하게 제한되지 않으면 LR 통계량 분포가 수렴되지 않습니다. 식별 할 수없는 모든 매개 변수가 제한되는 경우 LR 통계량은 잘린 가우시안 프로세스의 최고 값입니다. 공분산은 일반적인 (5 모수) 경우에 계산하기 쉽지 않으며, 그러한 경우에도 그러한 프로세스의 상위 분포를 쉽게 추정 할 수 없습니다. 2- 성분 혼합물에 관한 실제 결과는 여기를 참조 하십시오. 흥미롭게도,이 논문은 오히려 간단한 설정에서 LR 통계가 실제로 일부 간단한 통계보다 덜 강력하다는 것을 보여줍니다. 이러한 문제에서 점근 분포를 도출하는 것에 관한 주요 논문은 여기를 참조 하십시오 . 모든 실질적인 목적으로 EM을 사용하여 혼합물을 피팅 한 다음 LR 통계량의 분포를 부트 스트랩 할 수 있습니다. EM이 느리기 때문에 시간이 걸릴 수 있으며 샘플 크기의 영향을 포착하려면 많은 복제가 필요합니다. 자세한 내용은 여기 를 참조 하십시오 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.