올바르게 계산하면 로지스틱 회귀는 무증상 적으로 t- 검정과 동일한 검정력을 갖습니다. 이를 확인하려면 로그 우도를 기록하고 전체 최대치에서 Hessian의 기대치를 계산하십시오 (음수는 ML 솔루션의 분산-공분산 매트릭스를 추정합니다). 일반적인 로지스틱 매개 변수화에 신경 쓰지 마십시오. 문제의 두 가지 확률로 매개 변수화하는 것이 더 간단합니다. 세부 사항은 로지스틱 회귀 계수의 유의성을 테스트하는 방법에 따라 다릅니다 (몇 가지 방법이 있음).
ML 추정치에 대한 카이-제곱 이론은 로그 우도에 대한 정규 근사값을 기반으로하고 t- 검정은 비율 분포에 대한 정규 근사값을 기반으로하기 때문에 이러한 검정의 유사한 검정력을 갖는 것은 그리 놀라운 일이 아닙니다. 문제의 요점은 두 방법 모두 두 비율의 동일한 추정치이며 두 추정치의 표준 오차는 동일하다는 것입니다.
실제 분석이 더 설득력이있을 수 있습니다. 주어진 그룹 (A 또는 B)의 값에 대한 일반적인 용어를 채택합시다.
- p 는 1의 확률입니다.
- n 은 각 추첨 세트의 크기입니다.
- m 은 추첨 세트 수입니다.
- N=mn 은 데이터의 양입니다.
- 0 1 j th i thkij ( 또는 과 동일 )는 결과 값으로 추첨 세트입니다.01jthith
- I 번째ki 는 추첨 세트의 총 개수입니다 .ith
- k 는 총 1입니다.
로지스틱 회귀 는 본질적으로 의 ML 추정량입니다 . 로그는p
log(L)=klog(p)+(N−k)log(1−p).
매개 변수 대한 파생어 는p
∂log(L)∂p=kp−N−k1−p and
−∂2log(L)∂p2=kp2+N−k(1−p)2.
첫 번째를 0으로 설정하면 ML 추정치 산출되고 두 번째 표현식의 역수에 연결하면 분산 , 이는 표준 오차의 제곱입니다. P (1 - P )/Np^=k/Np^(1−p^)/N
t 통계치는 무 세트에 의하여 그룹핑 된 상기 데이터에 기초 추정기로부터 얻어진다; 즉, 평균의 차이 (하나는 그룹 A에서, 다른 하나는 그룹 B에서)를 그 차이의 표준 오차로 나눈 값으로, 이는 평균의 표준 편차로부터 얻어진다. 주어진 그룹에 대한 평균 및 표준 편차를 살펴 보겠습니다. 평균은 이며 ML 추정기 동일합니다 . 문제의 표준 편차는 인발 수단 의 표준 편차입니다. 즉, 집합의 표준 편차입니다 . 여기에 문제의 요점이 있으므로 몇 가지 가능성을 살펴 보겠습니다.P는 K I / Nk/Np^ki/n
데이터가 드로우로 그룹화되지 않았다고 가정하십시오 (즉, 및 . 연신 수단이다. 그들의 표본 분산은 동일 번 . 이로부터 표준 오류는 의 요소를 제외하고 ML 표준 오류와 동일하며, 때 본질적으로 입니다. 따라서이 작은 차이를 제외하고 로지스틱 회귀에 기반한 모든 테스트는 t- 테스트와 동일하며 본질적으로 동일한 힘을 달성 할 것입니다.m = N k는 i 개의 N / ( N - 1 ) P ( 1 - P를 ) √n=1m=NkiN/(N−1)p^(1−p^) 1N=1800N/(N−1)−−−−−−−−−√1N=1800
데이터가 그룹화 될 때 의 (true) 분산 은 과 같습니다. 통계 는 각각 분산이 인 Bernoulli ( ) 변수 의 합을 나타 내기 때문 입니다. 따라서 이러한 값 의 평균의 예상 표준 오차는 이전과 마찬가지로 제곱근입니다 .p ( 1 - p ) / n k i n p p ( 1 - p ) m p ( 1 - p ) / n / m = p ( 1 - p ) / Nki/np(1−p)/nkinpp(1−p)mp(1−p)/n/m=p(1−p)/N
숫자 2는 표본 분산의 조정으로 인한 작은 영향을 제외하고 , 검정력이 그림이 어떻게 할당되는지 (즉, 과 이 따라 변하는 방식에 따라) 눈에 변하지 않아야 함을 나타냅니다. (각 그룹 내에서 극소수의 무승부 세트를 사용하는 것이 어리석지 않은 한).n m n = Nmnmn=N
(필수 로지스틱 회귀)을 포함하는 에서 (각각 10,000 회 반복) 을 비교하기위한 제한된 시뮬레이션 ; ; 그리고 (샘플 분산 조정 최대화)이이를 나타냅니다. 처음 두 경우 의 검정력 ( , 단측)은 0.59 인 반면 세 번째 경우에는 조정 계수가 재료의 변화 (1798 또는 58 대신에 단지 2 개의 자유도가 있음)는 0.36으로 떨어집니다. 과 를 비교하는 또 다른 테스트p=0.70p=0.74m=900,n=1m=n=30m=2,n=450α=0.05p=0.50p=0.52 우리는 각각 0.22, 0.21, 0.15의 거듭 제곱을 제공합니다. 다시, 우리는 무승부로 그룹화하지 않는 것 (= 로지스틱 회귀)에서 30 개의 그룹으로 그룹화하는 것에서 두 그룹으로의 실질적인 감소로 약간의 감소 만 관찰합니다.
이 분석 의 도덕 은 다음과 같습니다.
- 당신은 잃게 많이 당신이 당신의 분할 때하지 않는 큰 번호로 데이터 값을 "무"의 상대적으로 작은 그룹.Nm
- 적은 수의 그룹을 사용하면 상당한 전력을 잃을 수 있습니다 ( 은 작고 은 그룹당 데이터 양이 큽니다).mn
- 데이터 값을 "드로우"로 그룹화하지 않는 것이 가장 좋습니다 . 로지스틱 회귀 및 t- 테스트를 포함한 모든 합리적인 테스트를 사용하여 그대로 분석하십시오.N