선형 회귀에 대한 t- 검정 이해


17

선형 회귀에 대한 가설 테스트를 수행하는 방법을 연구하려고합니다 (널 가설은 상관 관계가 없음). 내가 본 주제에 대한 모든 안내서와 페이지는 t- 검정을 사용하는 것 같습니다. 그러나 선형 회귀에 대한 t- 검정이 실제로 무엇을 의미하는지 이해하지 못합니다. 내가 완전히 잘못된 이해 나 정신 모델을 가지고 있지 않는 한 t- 검정은 두 모집단을 비교하는 데 사용됩니다. 그러나 회귀 및 회귀는 유사한 모집단의 표본이 아니며 동일한 단위가 아닐 수도 있으므로 비교하는 것은 의미가 없습니다.

선형 회귀에 대해 t- 검정을 사용할 때 실제로 무엇을하고 있습니까?

답변:


37

t t 분포가 처음 나오는 곳이기 때문에 아마도 두 개의 표본 t 검정을 생각하고있을 것입니다 . 그러나 실제로 모든 t 검정 수단은 검정 통계량에 대한 기준 분포가 t 분포라는 것입니다. 만약 Z ~ N ( 0 , 1 )S (2) ~ χ 2 DZS 2 독립 후 ZtttZN(0,1)S2χd2ZS2

ZS2/dtd
정의에 따라. 나는t분포 가이 비율의 분포에 주어진 이름이라는 것을강조하기 위해 이것을 쓰고 있습니다.이비율은 많이 나오기 때문에이 형태의 어떤 것도t분포를가질 것입니다. 두 표본 t 검정의 경우,이 비율은 널 (null)에서 평균의 차이가 제로 평균 가우시안이고 독립 가우시안에 대한 분산 추정값이 독립이기 때문에 나타납니다χ2(독립성은Basu의 정리를 통해 표시 될 수 있음). 가우시안 표본의 표준 분산 추정치가 모집단 평균에 부수적 인 반면 표본 평균이 완전하고 동일한 양에 충분하다는 사실을 사용합니다.

선형 회귀를 사용하면 기본적으로 동일한 결과를 얻습니다. 벡터 . S 2 j = ( X T X )라고 하자β^N(β,σ2(XTX)1) 및 예측 가정X가아닌 랜덤있다. 우리가 알고있는 경우σ(2)우리는 거라고 β J를-0Sj2=(XTX)jj1Xσ2 널 하에서H0

β^j0σSjN(0,1)
이므로 실제로 Z 테스트를합니다. 우리가 추정하지만 일단 σ 2 우리는 끝낼 χ 우리의 정상 가정에서, 우리의 통계의 독립적 인 것으로 밝혀 것을 확률 변수 β의 J 다음 우리는 수 t의 분포를.H0:βj=0σ2χ2β^jt

자세한 내용은 다음과 같습니다. . 시키는 H = X ( X T X ) - 1 X T 될 우리가 모자 행렬 E 2 = ( I - H ) Y 2 = Y T가 ( I - H ) y로 . H 는 dem 등원이므로 정말 좋은 결과를 얻습니다. yN(Xβ,σ2I)H=X(XTX)1XT

e2=(IH)y2=yT(IH)y.
H 와 비 중심적 파라미터 δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 이므로 실제로 이것은 n p 인 중심 χ 2 입니다.
와이(나는H)와이/σ2χ2(δ)
δ=β엑스(나는H)엑스β=β(엑스엑스엑스엑스)β=0χ2자유도 (이것은 코크란 정리의 특별한 경우입니다 ). 내가 사용하고 의 열 개수 표시하기 위해 X를 하나 열 경우 그래서, X는 절편을 제공 한 후 우리가 가진 것 P - 1 비 절편의 예측을. 일부 저자는 p 를 사용 하여 비 절편 예측 변수의 수로 사용 하기 때문에 때때로 자유도에서 n - p - 1 과 같은 것을 볼 수 있지만 모두 같은 것입니다.엑스엑스11

이것의 결과는 때문에 σ (2) : = 1이자형(이자형이자형/σ2)=σ2의 추정값으로 사용됩니다.σ^2: =1이자형이자형σ2

이것은 즉, β의 J 는 표준 가우시안 대 카이 제곱을 자유 도로 나눈 비율입니다. 이 작업을 마치려면 독립성을 보여야하며 다음 결과를 사용할 수 있습니다.

β^제이σ^에스제이=β^제이에스제이이자형이자형/()=β^제이σ에스제이이자형이자형σ2()

결과 : 위한 과 행렬 및 B 에서 R의 L × KR m ×케이(μ,Σ)아르 자형×케이 각각ZBZ가있는 경우에만, 독립적Σ B는 T =0(이 운동이고Jun Shao의 수학 통계1 장 58 (b)).아르 자형미디엄×케이AΣBT=0

우리가 β = ( X T X ) - 1 X T YE = ( I - H ) Y Y는 ~ N ( X의 β가 , σ 2 I를 ) . 이 수단 ( X T X ) ( ( X T X ) - 1 X T - ( X T X ) - 1β^=(XTX)1XTye=(IH)yyN(Xβ,σ2I) 이므로

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
, 따라서 βETE.β^이자형β^이자형이자형

결론적으로 우리는 이제 알고있다 β J를 (상기 모든 가정하에) 원하는.

β^제이σ^에스제이

A를 스태킹하여 형성된(l+m)×k행렬입니다.=()(+미디엄)×케이

=()((μμ),Σ)
Σ=()Σ()=(ΣΣΣΣ).
Σ=0


3
+1은 항상 답을 읽는 것을 즐깁니다.
Haitao Du

9

@Chaconne의 대답은 훌륭합니다. 그러나 여기에 더 짧은 비 수학적 버전이 있습니다!

목표는 P 값을 계산하는 것이므로 먼저 귀무 가설을 정의해야합니다. 거의 항상, 즉, 기울기는 실제로 수평이므로 기울기 (베타)의 수치는 0.0입니다.

데이터의 기울기가 0.0이 아닙니다. 무작위 확률이나 귀무 가설로 인한 불일치입니까? 확실하게 대답 할 수는 없지만 P 값은 친절한 답변을 얻는 한 가지 방법입니다.

회귀 프로그램은 기울기의 표준 오차를보고합니다. 기울기를 표준 오차로 나눈 t 비율을 계산합니다. 실제로는 표준 오차로 나눈 (경사-귀무 가설 경사)이지만 귀무 가설 경사는 거의 항상 0입니다.

지금 당신은 비율에 있습니다. 자유도 (df)는 데이터 포인트 수에서 회귀에 맞는 모수의 수를 뺀 값과 같습니다 (선형 회귀의 경우 2 개).

해당 값 (t 및 df)을 사용하면 온라인 계산기 또는 테이블을 사용하여 P 값을 결정할 수 있습니다.

관측 된 계산 된 값 (기울기)과 가상의 값 (제로 가설)을 비교하는 것은 본질적으로 1- 표본 t- 검정입니다.


4
진짜 질문은 이 "본질적으로 하나의 샘플 t 테스트"입니다, 나는 그것이 당신의 대답은 분명이 될 수있는 방법을 볼 수 없습니다 ...
아메바는 분석 재개 모니카 말한다
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.