우도 비 검정은 왜 카이 제곱으로 분산됩니까?


34

우도 비 검정의 검정 통계량이 카이 제곱으로 분산 된 이유는 무엇입니까?

2(ln 엘에이 영형이자형ln 엘 영형이자형)χ에프에이에프2



14
참조 주셔서 감사합니다. 여기 stats.stackexchange.com/faq#etiquette
Beeblebrox 박사

5
거기에 "유머 감각을 가져 오십시오". 무례한 의도는 없었지만이 질문에 대한 답은 비교적 지루하고 기본적으로 해당 기사의 내용 (또는 더 나은 통계 교과서)으로 구성됩니다. 이 중 하나의 설명과 관련하여 정확한 문제를 진술하면 기꺼이 도와 드리겠습니다.
Nick Sabbe

2
월페이퍼가없는 Wilks의 원본 용지에 직접 연결 됩니다.
ayorgo

답변:


23

@Nick이 언급했듯이 이것은 Wilks 정리 의 결과입니다 . 그러나 시험 통계는 참고 점근 -distributed하지 -distributed.χ 2χ2χ2

이 정리는 매우 넓은 맥락에서 이루어지기 때문에이 정리에 깊은 감명을받습니다. 우도와 통계 모델을 고려 이다의 벡터 관측 파라미터 분포 독립된 복제 관측 submanifold에 속하는 의 와 치수 . 하자 가 수와 사이즈 submanifold . H_0 \ colon \ {\ theta \ in B_0 \} 테스트에 관심이 있다고 가정하십시오 .y n θ B 1 R d 희미한 ( B 1 ) =l(θy)ynθB1RB 0B 1 dim ( B 0 ) = m Hdim(B1)=에스B0B1dim(B0)=H0:{θ0}

우도 비율 인 정의 일탈의 . 이어서 윌크스 '정리 것을 말한다 일반적인 규칙 가정하에, 점근 적이다 로 -distributed 시 자유도 성립.d(y)=2log(lr(y))d(y)χ2s-mH0

아르 자형(와이)=저녁을 먹다θ1(θ와이)저녁을 먹다θ0(θ와이).
(와이)=2로그(아르 자형(와이))(와이)χ2에스H0

@Nick이 언급 한 Wilk의 원본 논문 에서 입증되었습니다 . 이 논문은 읽기 쉽지 않다고 생각합니다. 윌크스는 나중에 자신의 정리를 가장 쉽게 표현할 수있는 책을 출판했습니다. Williams의 훌륭한 책 에서 휴리스틱 증거를 짧게 제시 합니다.



5
오 스테판. 이것은 위키 백과입니다. 편집하고 개선 할 수 있습니다!
StasK

1
@StasK 나는 그것을 알고 있지만 시도한 적이 없습니다. 그리고 나는 이미 통계와 수학으로 인생에 너무 많은 시간을 보냅니다.)
Stéphane Laurent

2가 이탈의 정의에서 로그 앞에있는 이유에 대한 직감이 있습니까?
user56834

@ Programmer2134 2 차 테일러 확장에서 파생됩니다.
Frank Vel

25

나는 두 번째 닉 Sabbe의 가혹한 주석, 내 짧은 대답은,이다 그것은 아니다 . 내 말은, 그것은 정상적인 선형 모델에만 있습니다. 절대적으로 다른 종류의 상황에서 정확한 분포는 가 아닙니다 . 많은 경우에, 당신은 다음 윌크스 '정리의 전제 조건이 충족되었는지를 희망 할 수 점근 적 으로 분포 로그 우도 비율 테스트 통계 수렴을 . 윌크스 정리의 조건에 대한 제한과 위반은 무시하기에는 너무 많습니다.χ 2χ2χ2

  1. 정리는 iid 데이터를 가정한다. 시계열 또는 불확실한 확률 조사 샘플과 같은 종속 데이터에 문제가있을 것으로 예상한다 ( 가능성이 잘못 정의되어 있는지; 우발성 테이블의 독립성 테스트와 같은 "정규" 테스트). , 합계 ( Rao & Scott )로 동작하기 시작합니다 iid 데이터의 경우 이고 합은 됩니다. -독립적 인 데이터, 더 이상 사실이 아닙니다.χ 2 k a k v k , v kiid χ 2 1 a k = 1 χ 2χ2케이에이케이V케이,V케이이드χ12에이케이=1χ2
  2. 정리는 실제 매개 변수가 매개 변수 공간 내부에 있다고 가정합니다. 작업 할 유클리드 공간이 있다면 문제가되지 않습니다. 그러나 일부 문제에서 분산 0 또는 -1과 1 사이의 상관 관계 와 같은 자연 제한이 발생할 수 있습니다 . 실제 매개 변수가 경계인 경우 점근 분포는 다른 각도 의 의 혼합입니다. 시험의 cdf가 그러한 cdfs의 합이라는 점에서 자유의 여지가있다 ( Andrews 2001 , 같은 기간의 논문 2 ~ 3 개, 역사는 Chernoff 1954 년으로 거슬러 올라간다 ).χ 2χ2
  3. 정리는 모든 관련 도함수가 0이 아니라고 가정합니다. 이는 일부 비선형 문제 및 / 또는 매개 변수화 및 / 또는 매개 변수가 널 (null) 아래에서 식별되지 않는 상황에서 문제가 될 수 있습니다. 가우스 혼합 모델이 있고 널이 하나의 구성 요소 대 두 개의 다른 구성 요소의 대안 혼합 비율을 가진 . 널 (null)은 대체 방법으로 중첩되어 있지만 다양한 방법으로 표현할 수 있습니다. (이 경우 매개 변수 는 식별되지 않음), (이 경우f N ( μ 1 , σ 2 1 ) + ( 1 - f ) N ( μ 2 , σ 2 2 ) f f = 0 μ 1 , σ 2(μ0,σ02)에프(μ1,σ12)+(1에프)(μ2,σ22)에프에프=0 f=1μ2,σ 2 2 =μ1,σ12에프=1μ2,σ22식별되지 않음) 또는 (이 경우 는 식별되지 않음). 여기에서는 중첩 매개 변수화 방법에 따라 다른 수의 제한이 있으므로 테스트에 얼마나 많은 자유도가 있어야하는지 말할 수 없습니다. 이에 대한 Jiahua Chen의 작업을 참조하십시오 (예 : CJS 2001) . fμ1=μ2,σ1=σ2에프
  4. 분배가 제대로 지정되어 있는지 확인을 작동 할 수 있습니다. 그러나 그렇지 않은 경우 테스트가 다시 중단됩니다. 구조 방정식 공분산 모델링으로 알려진 다변량 분석의 (통계학자가 거의 무시한) 하위 영역에서 다변량 정규 분포가 종종 가정되지만 구조가 정확하더라도 분포가 다른 경우 검정이 잘못 작동합니다. Satorra와 Bentler 1995 는 배포가 될 것이라는 것을 보여주었습니다. 는 모형의 구조와 분포의 네 번째 모멘트에 따라 다릅니다.χ2케이에이케이V케이,V케이이드χ12에이케이
  5. 유한 표본의 경우, 큰 비율의 상황에서 가능성 비율은 Bartlett-correctible입니다 . while 크기의 시료에 대하여 , 및 의 분포 함수 인 정규 우도 문제, 분포는 일정하게 찾을 수 등 그 즉, 정확성. 따라서 유한 샘플에 대한 근사값을 향상시킬 수 있습니다 (어떻게 알면 분명히 개선해야 함). 상수n F ( x ; χ 2 d ) χ 2 d b P r o b [ d x ] = F ( x ; χ 2 dProb[d(y)x]=F(x;χd2)[1+O(n1)]nF(x;χd2)χd2bχ 2 bProb[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)]χ2b 모델의 구조에 따라, 때로는 보조 매개 변수에 따라 달라 지지만, 일관성있게 추정 할 수있는 경우에도 적용 순서를 개선하는 데 효과적입니다.

가능성 추론의 이러한 및 유사한 난해한 문제에 대한 검토는 Smith 1989를 참조하십시오 .


1
감사! 매우 유익합니다. "정상 선형 모델에만있다" 는 것은 무엇을 의미 합니까? 과 이 선형 부분 공간 인 Fisher 검정의 경우 이탈은 Fisher 통계량의 모노톤 함수이며 이는 단지 무조건 입니다. B 1 χ 2B0B1 χ2
Stéphane Laurent

알려진 분산으로 추가해야합니다.
StasK
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.