독립적이고 동일하게 분포 된 일 변량 관측 값 와 x 가 어떻게 생성 되었는지에 대한 두 가지 가설 이 있다고 가정합니다 .
: x 는 평균과 분산을 알 수없는 단일 가우스 분포에서 도출됩니다.
: x 는 평균, 분산 및 혼합 계수가 알려지지 않은 두 가우스 혼합에서 도출됩니다.
만약 내가 제대로 이해하고, 이러한 것을 모델 이후 중첩 된 모델입니다 의 관점에서 설명 될 수 있습니다 나타냅니다 H 당신이 동일 또는 두 개의 가우시안 중 하나 제로로 혼합 계수를 제한하는 두 개의 가우시안의 매개 변수를 제한하는 경우는 .
따라서 EM 알고리즘을 사용하여 의 매개 변수를 추정 한 다음 Wilks Theorem을 사용하여 H A 의 데이터 가능성이 H 0 의 데이터 가능성 보다 유의하게 큰지 여부를 판별 할 수 있어야합니다 . EM 알고리즘이 여기서 최대 가능성으로 수렴 할 것이라는 가정에는 약간의 믿음의 도약이 있지만, 그것은 내가 기꺼이 한 것입니다.
나는 몬테카를로 시뮬레이션에서 가 H 0 (제 2 가우스의 평균과 분산 및 혼합 파라미터) 보다 3 자유도가 더 높다고 가정하여 이것을 시도했습니다 . H 0 에서 데이터를 시뮬레이션했을 때 P- 값 분포가 실질적으로 균일하지 않고 작은 P- 값이 풍부 해졌습니다. (EM이 실제 최대 가능성으로 수렴하지 않으면 정확한 반대가 예상됩니다.)이 편견을 일으키는 Wilks 정리를 적용 할 때 어떤 문제가 있습니까?