카이 제곱 적합도 검정에 대한 데이터 기반 구간 경계의 영향?


18

이런 종류의 환경에서 카이 제곱의 저전력의 명백한 문제를 제쳐두고 데이터를 비닝하여 지정되지 않은 매개 변수로 일부 밀도에 대해 카이 제곱 우수성 테스트를 수행한다고 상상해보십시오.

구체적으로 알 수없는 평균과 표본 크기가 100 인 지수 분포를 가정 해 봅시다.

구간당 합당한 수의 관측 값을 얻으려면 데이터를 고려해야합니다 (예 : 평균값 아래에 6 단을 배치하고 그 위의 4 단을 선택하면 여전히 데이터 기반 구간 경계를 사용함) .

그러나 데이터를 확인한 결과 이러한 빈을 사용하면 null 아래의 테스트 통계 분포에 영향을 줄 수 있습니다.

- 난 사실에 대해 토론을 많이 본 경우 매개 변수가에서 최대 우도 추정된다 비닝 데이터 - 당신은 추정 파라미터 (문제가 칼 피어슨 대 피셔에 바로 다시 데이트) 당 1 DF을 잃게 -하지만 난 리콜을하지 않습니다 데이터를 기반으로 빈 경계 자체를 찾는 것에 대한 모든 것을 읽습니다. (바인딩되지 않은 데이터에서 추정하면 빈을 사용하여 검정 통계량의 분포는 와 있습니다.)χ 2 k χ 2 k pkχk2χkp2

이 데이터 기반 쓰레기통 선택이 실질적으로 중요성 수준이나 성능에 영향을 줍니까? 다른 것보다 중요한 접근법이 있습니까? 많은 효과가 있다면 큰 샘플에서 사라지는 것입니까?

그것이 실질적인 영향을 미쳤다면, 매개 변수가 거의 쓸모없는 것으로 알려졌을 때 카이 제곱 테스트를 사용하는 것 같습니다. 매개 변수의 -priori 추정치.

문제 또는 참고 문헌에 대한 논의 (바람직하게 결론에 대한 언급과 함께)가 유용 할 것입니다.


주요 질문을 제외하고 편집하십시오.

지수의 특정 사례 (및 유니폼이 그것을 생각하게 될 것입니다)에 대한 잠재적 인 해결책이 있다는 것이 나에게 발생하지만 여전히 빈 경계를 선택하는 영향의보다 일반적인 문제에 관심이 있습니다.

예를 들어, 지수의 경우 가장 작은 관측치 (예 : 과 동일 )를 사용하여 저장소를 배치 할 위치에 대한 대략적인 아이디어를 얻을 수 있습니다 (가장 작은 관측치가 평균 지수이기 때문에 ) 그런 다음 지수에 대해 나머지 차이 ( )를 테스트합니다 . 물론 그것은 의 매우 나쁜 추정치를 산출 할 수 있고 , 따라서 빈 선택이 좋지 않습니다. 그러나 합리적인 빈을 선택하고 그 차이를 테스트하기 위해 가장 낮은 두세 번의 관찰을 취하기 위해 인수를 재귀 적으로 사용할 수 있다고 가정합니다. 지수에 대한 가장 작은 차수 통계보다 큰 나머지 관측치)μ / n n - 1 x i - m μmμ/nn1ximμ


1
흥미로운 질문입니다. 나는 답을 모른다. 그러나 어느 정도의 자유를 잃어야한다는 생각이 합리적이다. 아직 보지 못했다면 @whuber의 대답은 생각을 자극하는 방법 입니다. 일부 시뮬레이션 연구를 통해 적어도 특정 경우에 대해 여기에서 발판을 잡을 수 있어야합니다.
gung-모니 티 복원

1
이것이 얼마나 도움이되는지 확실하지 않지만 강력한 추정 분야에서도 비슷한 문제가 있습니다. 특히, 강력한 추정 방법 (예 : 트림 평균)에는 종종 매개 변수화 된 입력 (예 : 트림 할 양을 정의하는 매개 변수)이 필요합니다. 이 매개 변수는 데이터 기반 방법으로 선택할 수 있습니다 (예 : 트리밍 매개 변수를 선택하기 전에 꼬리가 얼마나 뚱뚱한 지 확인). 그러나 다듬기 매개 변수를 미리 선택하면 고정 된 매개 변수 규칙과 비교하여 잘린 평균의 분포에 영향을줍니다. 그 문헌에서 다루는 일반적인 방법은 부트 스트랩을 통하는 것입니다.
Colin T Bowers

@ColinTBowers-다소 도움이 될 것입니다. 부트 스트랩 가능성에 대해서는 생각하지 않았습니다.
Glen_b-복지 주 모니카

1
문제를 가장 간단한 경우로 나누는 것이 흥미로울 수 있습니다. 자주 사용하는 분포에서 관측치 5 개와 같은 것을 상상하고 데이터에 단일 분배기를 두 개의 빈을 형성하십시오.
zkurtz

답변:


15

카이-제곱 적합도 검정의 기본 결과는 계층 적으로 이해할 수 있습니다 .

레벨 0 . 고정 확률 벡터 에 대해 다항식 표본을 검정하기위한 고전적인 Pearson 카이 제곱 검정 통계량 은 여기서 은 번째 셀 의 결과 수를 나타냅니다. 크기의 샘플 . 이는 풍성 벡터의 제곱 놈으로 볼 수 , 다변량 중심 한계 정리에 의해 X 2 ( p ) = k i = 1 ( X ( n ) in p i ) 2pX ( n ) i i n Y n = ( Y ( n ) 1 , , Y ( n ) k ) Y ( n ) i = ( X ( n ) i - n p i ) /

X2(p)=i=1k(Xi(n)npi)2npidχk12,
Xi(n)inYn=(Y1(n),,Yk(n)) Y n d N(0,IYi(n)=(Xi(n)npi)/npiX 2 = Y N 2χ 2 K - 1 I -
YndN(0,IppT).
이것으로부터 우리는 이므로 는 랭크의 등전위이므로 .X2=Yn2χk12k-1IppTk1

수준 1 . 계층의 다음 단계에서는 다항식 샘플을 사용한 복합 가설을 고려합니다. 귀무 가설 하에서는 정확한 관심 를 알 수 없으므로 추정해야합니다. 귀무 가설이 복합적이고 차원의 선형 부분 공간으로 구성된 경우 의 최대 우도 추정치 (또는 기타 효율적인 추정기) 를 "플러그인"추정기로 사용할 수 있습니다. 그런 다음 통계량 귀무 가설 하에서 .mpmX 2 1 = K Σ I = 1 ( X ( N ) I - N P I ) (2)pi

X12=i=1k(Xi(n)np^i)2np^idχkm12,

레벨 2 . 셀이 고정되어 있고 미리 알려진 파라 메트릭 모델에 대한 적합도 검정의 경우를 고려하십시오. 예를 들어, 우리는 rate 를 갖는 지수 분포의 샘플을 가지고 있으며 이로부터 셀 을 비닝하여 다항 샘플을 생성합니다. 관측 된 주파수 만 사용하여 빈 확률 자체의 효율적인 추정치 (예 : MLE) 사용하는 경우 위의 결과는 여전히 유효 합니다.Kλk

분포에 대한 모수의 수가 (예 : 지수의 경우 ) 여기서 여기서 는 주어진 관심 분포에 해당하는 고정 된 알려진 세포의 세포 확률의 MLE로 간주됩니다.mmm=1

X22=i=1k(Xi(n)np^i)2np^idχkm12,
p^i

레벨 3 . 하지만 기다려! 표본 , 먼저 효율적으로 추정 한 다음 고정 된 알려진 셀과 함께 카이-제곱 통계량을 사용해야하는 이유는 무엇입니까? 음, 우리는 할 수 있지만 일반적으로 더 이상 해당 카이 제곱 통계량에 대한 카이 제곱 분포를 얻지 못합니다. 실제로 Chernoff와 Lehmann (1954)은 MLE을 사용하여 모수를 추정 한 다음 다시 연결하여 세포 확률을 추정하면 일반적으로 카이 제곱이 아닌 분포를 나타냅니다. 적절한 규칙적 조건 하에서 분포는 (chistotically) 와 랜덤 변수 사이이며, 분포는 모수에 따라 다릅니다.Z1,,ZnFλλχkm12χk12

직관적으로 이는 의 제한 분포 가 입니다.YnN(0,IpλpλTA(λ))

우리는 아직 임의의 셀 경계에 대해 이야기하지 않았으며, 우리는 이미 약간 빡빡한 위치에 있습니다! 두 가지 방법이 있습니다. 하나는 레벨 2로 후퇴하거나 최소한 기본 매개 변수 의 효율적인 추정기 (MLE와 같은)를 사용 하지 않는 것 입니다. 두 번째 방법은 카이 제곱 분포를 복구하는 방식으로 의 효과를 취소하는 것입니다 .λA(λ)

후자의 길을가는 방법에는 여러 가지가 있습니다. 기본적으로 에 "오른쪽"행렬 곱하는 것 입니다. 그런 다음 2 차 형식 여기서 는 셀 수입니다.B (YnB(λ^)

YnTBTBYndχk12,
k

예는 있습니다 라오 - 롭슨 - Nikulin 보낸 통계Dzhaparidze - Nikulin 보낸 통계 .

레벨 4 . 무작위 세포. 랜덤 셀의 경우, 특정 규칙 조건 하에서 Pearson 카이 제곱 통계량을 수정하는 경로를 취하면 레벨 3과 동일한 상황이됩니다. 특히 위치 규모의 가족은 매우 훌륭하게 행동합니다. 한 가지 일반적인 접근법은 셀을 각각 명목상 확률 가되도록하는 것 입니다. 따라서 임의의 셀은 형식의 간격입니다. 여기서 . 이 결과는 샘플 크기에 따라 임의의 셀 수가 증가하는 경우로 확장되었습니다.1 / K I J = μ + σ I는 0 , J I을 0k1/kI^j=μ^+σ^I0,jI0,j=[F1((j1)/k),F1(j/k))

참고 문헌

  1. W. van der Vaart (1998), Asymptotic Statistics , Cambridge University Press. 17 장 : 카이 스퀘어 테스트 .

  2. H. Chernoff and EL Lehmann (1954), 검정에서 적합도에 대한 최대 우도 추정치 사용χ2 , Ann. 수학. 통계 학자. , vol. 25 번 3, 579–586.

  3. FC Drost (1989), 클래스 수가 무한대경향이있을 때 위치 척도 모델에 대한 일반화 된 카이 제곱 적합도 검정 , Ann. 통계 , vol. 17 번 3, 1285–1300.

  4. MS Nikulin, MS (1973), 시프트 및 스케일 매개 변수를 사용한 연속 분포에 대한 카이-제곱 검정 , 확률 이론 및 응용 , vol. 19 번 3, 559–568.

  5. KO Dzaparidze와 MS Nikulin (1973), Pearson의 표준 통계 , 확률 이론 및 그 적용 , vol. 19 번 4, 851–853.

  6. KC Rao 및 DS Robson (1974), 지수 패밀리 내 적합도 검정에 대한 카이 제곱 통계량 , Comm. 통계 학자. , 3 권. 12, 1139–1153.

  7. N. Balakrishnan, V. Voinov 및 MS Nikulin (2013), 응용 프로그램을 사용한 카이 제곱 적합도 검정 , 학술 출판사.


5

아래에서 내 질문에 대한 적어도 부분적인 답변을 찾았습니다. (나는 여전히 누군가에게 그 보너스를주고 싶습니다. 그래서 추가 정보는 높이 평가됩니다.)

Moore (1971)는 Roy (1956)와 Watson (1957,58,59)은 카이 제곱 통계량의 셀 경계가 최상의 점근 정규 추정 모수 값의 함수 인 경우 특정 조건 하에서 점근 귀 분포 카이-제곱 통계량은 여전히 합과 가중 합이 변수 ( 셀의 경우 매개 변수)의 합이며 여기서 가중치는 0과 1 사이입니다. ( ML 추정을 사용할 때 분포에 대한 질문에서 암시 된 것처럼 와 사이의 분포의 cdf 만들기 ) 및 마지막 의 가중치 p χ 2 1χkp12p χ12p χ 2 k - p χ 2 k pkpχkp2χk2p 용어는 해당 추정에 영향을받지 않습니다.

참고 문헌

무어 DS (1971), 랜덤 셀 경계를 갖는 카이-제곱 통계 , Ann. 수학. 통계 , Vol 42, No 1, 147–156.

로이 AR (1956), 에 변수 간격 통계χ2 , 기술 보고서 제 1 호 , 통계, 스탠포드 대학의학과.

왓슨, GS (1957) 정규 분포에 대한 적합도 테스트 , Biometrika , 44 , 336-348.χ2

왓슨, GS (1958) 에서 연속 분포에 대한 적합도 테스트χ2 , J. 로얄 주의적. Soc. B , 20 , 44–61.

Watson, GS (1959), 일부 최근 결과는 적합도 검정χ2 , Biometrics , 15 , 440-468

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.