귀하가 참조하는 정리 (일반적인 축소 부분 "추정 된 매개 변수로 인한 일반적인 자유도 감소")는 주로 RA Fisher가 옹호했습니다. '우연성 표의 카이 제곱 해석 및 P의 계산'(1922)에서 그는 규칙과 '회귀 공식의 적합도' 를 사용한다고 주장했다. 1922) 그는 데이터에서 기대 값을 얻기 위해 회귀에 사용 된 매개 변수의 수에 의해 자유도를 줄이라고 주장한다. (1900 년에 도입 된 이래 20 년 이상 사람들이 카이 제곱 테스트를 잘못된 자유 도로 잘못 사용했다는 점에 주목하는 것이 흥미 롭습니다)(R−1)∗(C−1)
귀하의 경우는 두 번째 종류 (회귀)이며 이전 종류 (우발성 표)가 아닙니다. 두 가지가 매개 변수에 대한 선형 제한이라는 점에서 관련되어 있습니다.
관찰 된 값을 기반으로 예상 값을 모델링하고 두 개의 매개 변수 가있는 모델을 사용하여이 작업을 수행하므로 자유도의 '일반적인'감소는 2에 1을 더합니다 (O_i는 총계는 또 다른 선형 제한이며 모델링 된 예상 값의 '비 효율성'으로 인해 3 개 대신 2 개를 효과적으로 줄입니다.
카이-제곱 검정은 거리 측정 값으로 를 사용 하여 결과가 예상 데이터에 얼마나 근접한지를 나타냅니다. 카이-제곱 검정의 여러 버전에서이 '거리'의 분포는 정규 분포 변수의 편차 합계와 관련이 있습니다 (한계에서만 적용되며 비정규 분포 데이터를 처리하는 경우 근사). .χ2
다변량 정규 분포를 들어 밀도 함수는 관련된 에 의해χ2
f(x1,...,xk)=e−12χ2(2π)k|Σ|√
와 x 의 공분산 행렬의 결정 요인|Σ|x
및 이면 유클리드 거리를 감소 마할 라 노비스 거리 Σ = I를 .χ2=(x−μ)TΣ−1(x−μ)Σ=I
그의 1,900 글 피어슨 주장 -levels는 타원체이며, 그와 같은 값을 통합하기 위해 구면 좌표로 변환 할 수있는 P를 ( χ 2 > ) . 이것은 하나의 통합이됩니다.χ2P(χ2>a)
선형 제한이 존재할 때 자유도의 감소를 이해하는 데 도움이 될 수있는 거리와 밀도 함수의 용어 인 는 이러한 기하학적 표현 입니다.χ2
먼저 2x2 비상 테이블의 경우입니다 . 네 가지 값 는4 개의독립적 정규 분포 변수가 아닙니다. 그것들은 대신 서로 관련되어 있으며 단일 변수로 끓입니다.Oi−EiEi
테이블을 사용할 수 있습니다
Oij=o11o21o12o22
예상 값이
Eij=e11e21e12e22
고정 위치 는 자유도가 4 인 카이 제곱 분포로 분포되지만 종종oij를기반으로eij를추정하며 변동은 4 개의 독립 변수와 다릅니다. 대신 우리는o와e의모든 차이점이 동일하다는 것을 알 수있습니다.∑oij−eijeijeijoijoe
−−(o11−e11)(o22−e22)(o21−e21)(o12−e12)====o11−(o11+o12)(o11+o21)(o11+o12+o21+o22)
그것들은 사실상 4 개가 아닌 단일 변수입니다. 기하학적으로 이것을 4 차원 구에 통합되지 않고 한 줄에 값 으로 볼 수 있습니다 .χ2
이 우연성 테이블 테스트는 Hosmer-Lemeshow 테스트의 우연성 테이블에 대한 경우 가 아닙니다 (다른 귀무 가설을 사용합니다!). Hosmer and Lemshow의 기사에서 섹션 2.1 ' 및 β _ 가 알려진 경우'를 참조하십시오. 이 경우 (R-1) (C-1) 규칙에서와 같이 g-1 자유도가 아닌 2g-1 자유도를 얻습니다. 이 (R-1) (C-1) 규칙은 특히 행 및 열 변수가 독립적이라는 귀무 가설의 경우입니다 ( o i - e i 에 대한 R + C-1 제약 조건 생성)β0β––oi−ei values). The Hosmer-Lemeshow test relates to the hypothesis that the cells are filled according to the probabilities of a logistic regression model based on four parameters in the case of distributional assumption A and p+1 parameters in the case of distributional assumption B.
Second the case of a regression. A regression does something similar to the difference o−e as the contingency table and reduces the dimensionality of the variation. There is a nice geometrical representation for this as the value yi can be represented as the sum of a model term βxi and a residual (not error) terms ϵi. These model term and residual term each represent a dimensional space that is perpendicular to each other. That means the residual terms ϵi can not take any possible value! Namely they are reduced by the part which projects on the model, and more particular 1 dimension for each parameter in the model.
Maybe the following images can help a bit
Below are 400 times three (uncorrelated) variables from the binomial distributions B(n=60,p=1/6,2/6,3/6). They relate to normal distributed variables N(μ=n∗p,σ2=n∗p∗(1−p)). In the same image we draw the iso-surface for χ2=1,2,6. Integrating over this space by using the spherical coordinates such that we only need a single integration (because changing the angle does not change the density), over χ results in ∫a0e−12χ2χd−1dχ in which this χd−1 part represents the area of the d-dimensional sphere. If we would limit the variables χ in some way than the integration would not be over a d-dimensional sphere but something of lower dimension.
The image below can be used to get an idea of the dimensional reduction in the residual terms. It explains the least squares fitting method in geometric term.
In blue you have measurements. In red you have what the model allows. The measurement is often not exactly equal to the model and has some deviation. You can regard this, geometrically, as the distance from the measured point to the red surface.
The red arrows mu1 and mu2 have values (1,1,1) and (0,1,2) and could be related to some linear model as x = a + b * z + error or
⎡⎣⎢x1x2x3⎤⎦⎥=a⎡⎣⎢111⎤⎦⎥+b⎡⎣⎢012⎤⎦⎥+⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
so the span of those two vectors (1,1,1) and (0,1,2) (the red plane) are the values for x that are possible in the regression model and ϵ is a vector that is the difference between the observed value and the regression/modeled value. In the least squares method this vector is perpendicular (least distance is least sum of squares) to the red surface (and the modeled value is the projection of the observed value onto the red surface).
So this difference between observed and (modelled) expected is a sum of vectors that are perpendicular to the model vector (and this space has dimension of the total space minus the number of model vectors).
In our simple example case. The total dimension is 3. The model has 2 dimensions. And the error has a dimension 1 (so no matter which of those blue points you take, the green arrows show a single example, the error terms have always the same ratio, follow a single vector).
I hope this explanation helps. It is in no way a rigorous proof and there are some special algebraic tricks that need to be solved in these geometric representations. But anyway I like these two geometrical representations. The one for the trick of Pearson to integrate the χ2 by using the spherical coordinates, and the other for viewing the sum of least squares method as a projection onto a plane (or larger span).
I am always amazed how we end up with o−ee, this is in my point of view not trivial since the normal approximation of a binomial is not a devision by e but by np(1−p) and in the case of contingency tables you can work it out easily but in the case of the regression or other linear restrictions it does not work out so easily while the literature is often very easy in arguing that 'it works out the same for other linear restrictions'. (An interesting example of the problem. If you performe the following test multiple times 'throw 2 times 10 times a coin and only register the cases in which the sum is 10' then you do not get the typical chi-square distribution for this "simple" linear restriction)