Hosmer-Lemeshow 테스트에서 의 자유도


33

로지스틱 회귀 모형의 적합도 (GOF)에 대한 Hosmer-Lemeshow 검정 (HLT) 의 검정 통계량 은 다음과 같이 정의됩니다.

그런 다음 샘플은 deciles, 로 분할되며 , decile 당 다음 수량을 계산합니다.d=10D1,D2,,Dd

  • O1d=iDdyi , 즉 decile 에서 관찰 된 긍정적 인 사례 수 ;Dd
  • O0d=iDd(1yi) , 즉 decile 에서 관찰 된 음성 사례 수 ;Dd
  • E1d=iDdπ^i , 즉 십진수 D_d 의 추정 된 긍정적 사례 수 Dd;
  • E0d=iDd(1π^i) , 즉 십진법 D_d 의 부정 사례의 추정 수 Dd;

여기서 yii 번째 관측치에 대한 관측 된 이진 결과 이고 해당 관측치에 대한 추정 된 확률 π^i 입니다.

그런 다음 검정 통계량은 다음과 같이 정의됩니다.

X2=h=01g=1d((OhgEhg)2Ehg)=g=1d(O1gngπ^gng(1π^g)π^g)2,

여기서 π^g 분위의 평균 추정 확률 g 하고하자 ng 분위 회사의 숫자.

Hosmer-Lemeshow ( 이 링크 참조)에 따르면 이 통계에는 (d-2) 자유도가 있는 χ2 분포 가 있습니다 (d2) 일부 가정에 따라) .

한편 , I는와 비상 테이블 정의 할 경우, d 다음 대한 테스트 통계 (십분에 대응하는) 행 2 열 (허 / 진 결과에 대응) χ2 이 비상 테이블 테스트 것이다와 동일한 X2 상기 정의하지만, 비상 테이블의 경우에,이 통계량은 χ2(d1)(21)=d1 자유도 . 그래서 한 자유도가 더 !

이 자유도의 차이를 어떻게 설명 할 수 있을까요?

편집 : 의견을 읽은 후 추가 :

w

그들은 Moore와 Spruill에 의해 입증 된 정리가 있다고 Hosmer DW, Lemeshow S. (1980), 다중 로지스틱 회귀 모델에 대한 적합도 검정 참조. Communications in Statistics, A10, 1043-1069 참조 ) (1) 그룹화되지 않은 데이터에 대한 우도 함수를 사용하여 매개 변수를 추정하고 (2) 2xg 테이블의 주파수가 추정 된 매개 변수에 의존하는 경우, 즉 셀이 고정되지 않고 임의적입니다. (1)과 (2)에 따른 적합 통계량은 추정 된 모수와 가중 된 카이-제곱 변수의 합으로 인해 일반적인 자유도가 감소 된 중앙 카이-제곱의 양입니다.

그런 다음 논문을 잘 이해하면이 '수정 항'에 대한 근사치를 찾으려고합니다. 잘 이해하면이 가중 제곱 랜덤 변수의 가중 합이며 시뮬레이션을 통해이를 수행합니다. 나는 그들이 말하는 것을 완전히 이해하지 못한다는 것을 인정해야한다. 이 세포들은 왜 무작위이며, 그 정도는 자유도에 어떤 영향을 미칩니 까? 셀의 경계를 고정 한 다음 추정 점수를 기준으로 고정 셀에서 관측치를 분류하면 다를 수 있습니까?이 경우 셀의 '콘텐츠'가 무작위이지만 셀이 무작위가 아닙니다.

@ Frank Harell : 아래 의견에서 언급 한 Hosmer-Lemeshow 테스트의 '약점' 은 카이 제곱의 가중 합계의 근사치의 결과 일 수는 없습니까?


9
이 책에는이 테스트에 대한 자세한 설명과 그 기초가 포함되어 있습니다. 귀하의 질문은 pp. 145-149에 완전히 답변되어 있습니다. 테스트 에서 자유도를 결정 하는 것은 미묘한 것입니다. 이러한 테스트의 대부분은 근사치 (처음에는 근사치)이고 그 근사치는 사소한 기술적 조건이 적용되는 경우에만 적합하기 때문입니다. 이 모든 것에 대한 설명은 stats.stackexchange.com/a/17148을 참조하십시오 . H & L은 순전히 실용적인 경로를 택했습니다 . "광범위한 시뮬레이션 세트" 를 기반으로 DF에 대한 권장 사항을 기반 으로합니다. χ2d2
whuber

4
이 테스트는 이제 (1) 전력 부족, (2) 연속 확률 비닝 및 (3) 비닝 선택 및 10 분의 10의 정의 선택으로 인해 사용되지 않는 것으로 간주됩니다. Hosmer-le Cessie 1 df 시험 또는 Spiegelhalter 시험이 권장됩니다. 예를 들어 R rms패키지 residuals.lrmval.prob기능을 참조하십시오 .
Frank Harrell

2
@Frank Harell : (a) Hosmer-Lemeshow 테스트는 더 이상 사용되지 않습니다. 와의 차이점을 이해하는 것이 여전히 흥미 롭다고 생각합니다. (b) Spiegelhalter 테스트가 Hosmer-Lemeshow 테스트? χ2

2
이 문제는 원래 질문과 비교하여 IMHO가 매우 작습니다.
Frank Harrell

3
나는이 사이트의 다른 곳에 세부 사항이 있다고 생각한다. 간단히 말해, (1) Hosmer는 테스트가 임의적이라는 것을 보여주었습니다. 정확히 십분 위 계산 방법에 매우 민감합니다. (2) 힘이 부족하다. 비닝 보정 곡선 (평활 보정 곡선과 반대)을 플롯하고 점프를 기록하여 부정확 한 수량을 기반으로한다는 것을 알 수 있습니다. 또한 과도한 과적 합에 대해 적절하게 처벌하지 않습니다.
Frank Harrell

답변:


2

Hosmer DW, Lemeshow S. (1980), 다중 로지스틱 회귀 모형에 대한 적합도 검정. 통계, A10, 1043-1069의 커뮤니케이션은 다음을 보여줍니다.

모형이 로지스틱 회귀 모형이고 모수가 최대 우도에 의해 추정되고 G 그룹이 추정 된 확률에 정의 된 경우 X 2 가 무증상 χ 2 ( G p - 1 ) + p + 1 i = 1 λ i χ 2 i ( 1 ) (Hosmer, Lemeshow, 1980, p.1052, 정리 2).pGX2χ2(Gp1)+i=1p+1λiχi2(1)

(참고 : 필요한 조건은 1052 페이지의 정리 2에 명시 적으로 나와 있지 않지만, 종이와 증거를주의해서 읽으면 팝업이 표시됩니다)

두 번째 항 은 그룹화가 추정 된, 즉 무작위 수량을 기반으로한다는 사실에서 비롯됩니다 (Hosmer, Lemeshow, 1980, p.1051).i=1p+1λiχi2(1)

시뮬레이션을 사용하여 두 번째 항이 (시뮬레이션에서 사용 된 경우) 의해 근사 될 수 있음을 보여주었습니다 (Hosmer, Lemeshow, 1980, p.1060).χ2(p1)

이들의 합이 두 사실 결과 결합 변수 하나 G - (P) - (1 명) 과 자유 및 두번째 정도 P - 1 자유도 또는 X 2 ~ χ 2 ( G - (P) - 1 + (P)을 - 1 = G - 2 )χ2Gp1p1X2χ2(Gp1+p1=G2)

따라서이 질문에 대한 답은 '가중 카이-제곱 항'이 발생하거나 그룹이 임의 변수 인 추정 된 확률을 사용하여 정의된다는 사실에 있습니다.

참조 호스 머 Lemeshow (1980) 종이 - 정리 2


따라서이 질문에 대한 답은 '가중 카이-제곱 항'의 발생 그룹이 확률 변수 인 확률 변수를 사용하여 정의된다는 사실에 있습니다. A ) 추정 된 확률로 인해 p + 1이 추가로 감소되어 우발성 표 (g 항만 추정되는)의 경우와 크게 다릅니다. B가 감소하는 효과가 있음이 추정 우도 추정치 또는 동등하게 효율적이고, 차종이 없기 때문에) 가중 카이 제곱 항은 보정로 발생 미만 (p + 1)보다 추가.
Sextus Empiricus

@Martijn Weterings :이 의견에서 말한 내용이 답변에서 말하는 것과 정확히 같은 설명 (완전히 다른 말은 아님)이 아니라고 결론을 내린다면 옳습니까? 귀하의 의견은 df가 라는 결론을 이끌어 냅 니까? G2

내 대답은 " 이 우연성 테이블에 대한 검정에 대한 검정 통계량"을 기반으로 한 추론과 비교하여 자유도 차이의 직관을 설명하고 , 왜 다른지 설명합니다 (고정 셀을 추정하는 경우). 그것은 df가 G-3이라고 결론 내릴 '일반적인 감소'에 중점을 둡니다. 그러나 '일반적인 감소'에 대한 특정 조건은 충족되지 않습니다. 이러한 이유로 (무작위 셀) 가중 카이 제곱 항을 보정으로 사용하여 더 복잡한 항을 얻고 효과적으로 G-2로 끝납니다. 완전히 다른 것과는 거리가 멀다. χ2
Sextus Empiricus

@ Martijn Weterings, 죄송하지만 답변에 '무작위 세포'와 같은 개념이 전혀 표시되지 않기 때문에 공감할 수 없습니다. 당신의 모든 멋진 사진 (그리고 이것이 매우 훌륭하다는 것을 의미 함)을 의미합니까? '무작위 세포'에 대한 무언가 또는 내 대답을 읽은 후 그 개념을 생각해 냈습니까?

죄송합니다. 본인의 답변이 HL 테스트에서 자유도를 정확하게 나타내는 정확한 답변이 아님에 동의합니다. 나는 그것에 대해 죄송합니다. 당신이 가지고있는 것은 Chernoff Lehman 통계 (임의의 셀과 함께) i=1ks1χ2(1)+i=ksk1λiχi2(1)분포. 현재 어떤 부분이 당신을 괴롭 히고 있는지는 확실하지 않습니다. 모든 설명을 원한다면 이미 해당 기사가 있습니다. 내 대답은 우연성 테이블 테스트와의 주요 차이점을 설명 하는 을 해결했습니다. i=1ks1χ2(1)
Sextus Empiricus

2

귀하가 참조하는 정리 (일반적인 축소 부분 "추정 된 매개 변수로 인한 일반적인 자유도 감소")는 주로 RA Fisher가 옹호했습니다. '우연성 표의 카이 제곱 해석 및 P의 계산'(1922)에서 그는 규칙과 '회귀 공식의 적합도' 를 사용한다고 주장했다. 1922) 그는 데이터에서 기대 값을 얻기 위해 회귀에 사용 된 매개 변수의 수에 의해 자유도를 줄이라고 주장한다. (1900 년에 도입 된 이래 20 년 이상 사람들이 카이 제곱 테스트를 잘못된 자유 도로 잘못 사용했다는 점에 주목하는 것이 흥미 롭습니다)(R1)(C1)

귀하의 경우는 두 번째 종류 (회귀)이며 이전 종류 (우발성 표)가 아닙니다. 두 가지가 매개 변수에 대한 선형 제한이라는 점에서 관련되어 있습니다.

관찰 된 값을 기반으로 예상 값을 모델링하고 두 개의 매개 변수 가있는 모델을 사용하여이 작업을 수행하므로 자유도의 '일반적인'감소는 2에 1을 더합니다 (O_i는 총계는 또 다른 선형 제한이며 모델링 된 예상 값의 '비 효율성'으로 인해 3 개 대신 2 개를 효과적으로 줄입니다.


카이-제곱 검정은 거리 측정 값으로 를 사용 하여 결과가 예상 데이터에 얼마나 근접한지를 나타냅니다. 카이-제곱 검정의 여러 버전에서이 '거리'의 분포는 정규 분포 변수의 편차 합계와 관련이 있습니다 (한계에서만 적용되며 비정규 분포 데이터를 처리하는 경우 근사). .χ2

다변량 정규 분포를 들어 밀도 함수는 관련된 에 의해χ2

f(x1,...,xk)=e12χ2(2π)k|Σ|

x 의 공분산 행렬의 결정 요인|Σ|x

이면 유클리드 거리를 감소 마할 라 노비스 거리 Σ = I를 .χ2=(xμ)TΣ1(xμ)Σ=I

그의 1,900 글 피어슨 주장 -levels는 타원체이며, 그와 같은 값을 통합하기 위해 구면 좌표로 변환 할 수있는 P를 ( χ 2 > ) . 이것은 하나의 통합이됩니다.χ2P(χ2>a)


선형 제한이 존재할 때 자유도의 감소를 이해하는 데 도움이 될 수있는 거리와 밀도 함수의 용어 인 는 이러한 기하학적 표현 입니다.χ2

먼저 2x2 비상 테이블의 경우입니다 . 네 가지 값 4 개의독립적 정규 분포 변수가 아닙니다. 그것들은 대신 서로 관련되어 있으며 단일 변수로 끓입니다.OiEiEi

테이블을 사용할 수 있습니다

Oij=o11o12o21o22

예상 값이

Eij=e11e12e21e22

고정 위치 는 자유도가 4 인 카이 제곱 분포로 분포되지만 종종oij를기반으로eij를추정하며 변동은 4 개의 독립 변수와 다릅니다. 대신 우리는oe의모든 차이점이 동일하다는 것을 알 수있습니다.oijeijeijeijoijoe

(o11e11)=(o22e22)=(o21e21)=(o12e12)=o11(o11+o12)(o11+o21)(o11+o12+o21+o22)

그것들은 사실상 4 개가 아닌 단일 변수입니다. 기하학적으로 이것을 4 차원 구에 통합되지 않고 한 줄에 값 으로 볼 수 있습니다 .χ2

이 우연성 테이블 테스트는 Hosmer-Lemeshow 테스트의 우연성 테이블에 대한 경우 가 아닙니다 (다른 귀무 가설을 사용합니다!). Hosmer and Lemshow의 기사에서 섹션 2.1 ' β _ 가 알려진 경우'를 참조하십시오. 이 경우 (R-1) (C-1) 규칙에서와 같이 g-1 자유도가 아닌 2g-1 자유도를 얻습니다. 이 (R-1) (C-1) 규칙은 특히 행 및 열 변수가 독립적이라는 귀무 가설의 경우입니다 ( o i - e i 에 대한 R + C-1 제약 조건 생성)β0β_oiei values). The Hosmer-Lemeshow test relates to the hypothesis that the cells are filled according to the probabilities of a logistic regression model based on four parameters in the case of distributional assumption A and p+1 parameters in the case of distributional assumption B.

Second the case of a regression. A regression does something similar to the difference oe as the contingency table and reduces the dimensionality of the variation. There is a nice geometrical representation for this as the value yi can be represented as the sum of a model term βxi and a residual (not error) terms ϵi. These model term and residual term each represent a dimensional space that is perpendicular to each other. That means the residual terms ϵi can not take any possible value! Namely they are reduced by the part which projects on the model, and more particular 1 dimension for each parameter in the model.


Maybe the following images can help a bit

Below are 400 times three (uncorrelated) variables from the binomial distributions B(n=60,p=1/6,2/6,3/6). They relate to normal distributed variables N(μ=np,σ2=np(1p)). In the same image we draw the iso-surface for χ2=1,2,6. Integrating over this space by using the spherical coordinates such that we only need a single integration (because changing the angle does not change the density), over χ results in 0ae12χ2χd1dχ in which this χd1 part represents the area of the d-dimensional sphere. If we would limit the variables χ in some way than the integration would not be over a d-dimensional sphere but something of lower dimension.

graphical representation of chi^2

The image below can be used to get an idea of the dimensional reduction in the residual terms. It explains the least squares fitting method in geometric term.

In blue you have measurements. In red you have what the model allows. The measurement is often not exactly equal to the model and has some deviation. You can regard this, geometrically, as the distance from the measured point to the red surface.

The red arrows mu1 and mu2 have values (1,1,1) and (0,1,2) and could be related to some linear model as x = a + b * z + error or

[x1x2x3]=a[111]+b[012]+[ϵ1ϵ2ϵ3]

so the span of those two vectors (1,1,1) and (0,1,2) (the red plane) are the values for x that are possible in the regression model and ϵ is a vector that is the difference between the observed value and the regression/modeled value. In the least squares method this vector is perpendicular (least distance is least sum of squares) to the red surface (and the modeled value is the projection of the observed value onto the red surface).

So this difference between observed and (modelled) expected is a sum of vectors that are perpendicular to the model vector (and this space has dimension of the total space minus the number of model vectors).

In our simple example case. The total dimension is 3. The model has 2 dimensions. And the error has a dimension 1 (so no matter which of those blue points you take, the green arrows show a single example, the error terms have always the same ratio, follow a single vector).

graphical representation of regression dimension reduction


I hope this explanation helps. It is in no way a rigorous proof and there are some special algebraic tricks that need to be solved in these geometric representations. But anyway I like these two geometrical representations. The one for the trick of Pearson to integrate the χ2 by using the spherical coordinates, and the other for viewing the sum of least squares method as a projection onto a plane (or larger span).

I am always amazed how we end up with oee, this is in my point of view not trivial since the normal approximation of a binomial is not a devision by e but by np(1p) and in the case of contingency tables you can work it out easily but in the case of the regression or other linear restrictions it does not work out so easily while the literature is often very easy in arguing that 'it works out the same for other linear restrictions'. (An interesting example of the problem. If you performe the following test multiple times 'throw 2 times 10 times a coin and only register the cases in which the sum is 10' then you do not get the typical chi-square distribution for this "simple" linear restriction)


2
In my honest opinion this answer has very nice figures and arguments that are related to χ2 test but it has not so much to do with the question which is about the Hosmer-Lemeshow test for a logistic regression. You are arguing something with a regression where 1 parameters is estimated but the Hosmer-Lemeshow test is about a logistic regression where p>1 parameters are estimated. See also stats.stackexchange.com/questions/296312/…

... and, as you say, you end up with an e in the denominator and not with a np(1p) , so this does not answer this question. Hence I have to downvote, sorry (but the graphs are very nice :-) ).

You were asking in a comment for "to understand the formula or at least the 'intuitive' explanation". So that is what you get with these geometrical interpretations. To calculate exactly how these np(1p) cancel out if you add both the positive and negative cases is far from intuitive and does not help you understand the dimensions.
Sextus Empiricus

In my answer I used the typical (d1p) degrees of freedom and assumed that the regression was performed with one parameter (p=1), which was a mistake. The parameters in your references are two, a β0 and β. These two parameters would have reduced the dimensionality to d-3 if only the proper conditions (efficient estimate) would have been met (see for instance again a nice article from Fisher 'The conditions under which the chi square measures the discrepancy between observation and hypothesis')....
Sextus Empiricus

....anyway, I explained why we don't get dimension d-1 (and should instead expect something like d-3, if you put two parameters in the regression) and how the dimensional reduction by an efficient estimate can be imagined. It is the Moore-Spruill article that works out the extra terms (potentially increasing the effective degrees of freedom) due to that inefficiency and it is the Hosmer-Lemeshow simulation that shows that d-2 works best. That theoretical work is far from intuitive and the simulation is far from exact. My answer is just the requested explanation for the difference with d-1.
Sextus Empiricus
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.