가설 검정을위한 다중 선형 회귀


15

여러 선형 회귀 분석을 사용하여 다양한 변수의 모델을 만드는 데 익숙합니다. 그러나 회귀 테스트가 기본 가설 테스트를 수행하는 데 사용되는지 궁금합니다. 그렇다면 해당 시나리오 / 가설은 어떻게 생겼습니까?


1
무슨 뜻인지 더 자세히 설명해 주시겠습니까? 변수의 기울기 매개 변수가 0과 다른지 테스트하는 것이 매우 일반적입니다. 나는 그것을 "가설 테스트"라고 부릅니다. 당신은 그것을 알지 못합니까, 아니면 다른 것을 의미합니까? 귀하의 목적에 맞는 시나리오는 무엇입니까?
gung-모니 티 복원

나는 그것을 모른다. 또한 회귀 기반 분석이 다른 종류의 가설 검정 (아마도 하나의 변수가 다른 변수에 대한 중요성 등)에 사용되는지 확실하지 않았습니다.
cryptic_star

답변:


25

다음은 간단한 예입니다. R에 익숙한 지 잘 모르겠지만 코드가 충분히 설명되어 있기를 바랍니다.

set.seed(9)        # this makes the example reproducible
N = 36
    # the following generates 3 variables:
x1 =     rep(seq(from=11, to=13),           each=12)
x2 = rep(rep(seq(from=90, to=150, by=20),   each=3 ), times=3)
x3 =     rep(seq(from=6,  to=18,  by=6 ),  times=12)
cbind(x1, x2, x3)[1:7,]    # 1st 7 cases, just to see the pattern
      x1  x2 x3
 [1,] 11  90  6
 [2,] 11  90 12
 [3,] 11  90 18
 [4,] 11 110  6
 [5,] 11 110 12
 [6,] 11 110 18
 [7,] 11 130  6 
    # the following is the true data generating process, note that y is a function of
    #   x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
    #   & that x2 tends to have less influence on the response variable than x1:
y  = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)

reg.Model = lm(y~x1+x2+x3)    # fits a regression model to these data

이제 이것이 어떻게 보이는지 봅시다 :

. . . 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -1.76232   27.18170  -0.065  0.94871   
x1           3.11683    2.09795   1.486  0.14716   
x2           0.21214    0.07661   2.769  0.00927 **
x3           0.17748    0.34966   0.508  0.61524   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
. . . 
F-statistic: 3.378 on 3 and 32 DF,  p-value: 0.03016 

출력의 "계수"섹션에 집중할 수 있습니다. 모델에서 추정 한 각 매개 변수는 자체 행을 가져옵니다. 실제 추정치 자체가 첫 번째 열에 나열되어 있습니다. 두 번째 열에는 추정 의 표준 오류 , 즉이 과정을 계속 반복해서 반복 할 경우 표본에서 표본으로 '반복'할 추정치의 추정치가 나열 됩니다. 보다 구체적으로, 추정치의 샘플링 분포 의 표준 편차의 추정치입니다. 각 모수 추정값을 SE로 나누면 t-score 가 표시되며 세 번째 열에 나열됩니다. 이것은 가설 검정, 특히 모수 추정치가 0과 '상당히'다른지 여부를 검정하기 위해 사용됩니다. 마지막 열은해당 t- 점수와 연관된 p- 값 . 귀무 가설이 참인 경우 0에서 멀거나 그 이상으로 추정 된 값 찾을 확률입니다 . 귀무 가설이 사실이 아닌 경우,이 값이 우리에게 의미있는 것을 알려주는 것은 확실하지 않습니다.

Coefficients 테이블과 위의 실제 데이터 생성 프로세스를 앞뒤로 살펴보면 몇 가지 흥미로운 것을 볼 수 있습니다. 절편은 -1.8로 추정되고 SE는 27 인 반면, 참값은 15입니다. 연관된 p- 값이 .95이므로 0 ( 유형 II 오류 )과 '상당히 다른'것으로 간주되지 않지만 그럼에도 불구하고 그것은 진정한 가치의 하나의 SE 내에있다 . 따라서 실제 가치와 변동해야 할 금액의 관점에서이 추정치에 대해 극히 극단적 인 것은 없습니다. 우리는 단순히 그것을 0과 구별 할 이 충분하지 않습니다.x1x2.21214.2x3x1확률 변수보다 반응 변수를 더 잘 예측합니다. 이를 나타내는 또 다른 방법은 모든 추정값을 0과 차별화 할 수없는 것으로 간주 해야하는지 여부 입니다.이 테스트의 결과는 모수 추정값 중 적어도 일부가 0과 같지 않다는 것을 시사합니다. 위의 4 가지 테스트가 있기 때문에이를 제외하고는 여러 비교 문제 로부터 보호 할 수 없습니다 . (p- 값은 임의의 변수이므로 중요한 것이 든 실험이 다시 실행되는 경우 실험마다 다를 수 있으므로 서로 일치하지 않을 수 있음을 명심하십시오. CV here : 다중 회귀 분석에서 계수의 중요성 : 유의미한 t- 검정 대 유의하지 않은 F- 통계량반대의 상황 : 회귀가 어떻게 중요 할 수 있지만 모든 예측 변수가 중요 하지 않은지, 그리고 여기에서 : 회귀의 F 및 t 통계입니다 .) 아마도이 예 에는 제 1 종 오류 가 없을 것 입니다. 여하튼, 이 단락에서 논의 된 5 가지 테스트는 모두 가설 테스트입니다.

귀하의 의견에서, 하나의 설명 변수가 다른 설명 변수보다 더 중요한지 결정하는 방법에 대해 궁금 할 것입니다. 이것은 매우 일반적인 질문이지만 매우 까다 롭습니다. 선수의 키와 몸무게를 기준으로 스포츠에서 성공할 가능성을 예측하고 어느 것이 더 중요한지 궁금하다고 상상해보십시오. 일반적인 전략은 어떤 ​​추정 계수가 더 큰지 확인하는 것입니다. 그러나 이러한 추정치는 사용 된 단위에 따라 다릅니다. 예를 들어 무게 계수는 파운드 또는 킬로그램 사용 여부에 따라 달라집니다. 또한 파운드와 인치 또는 킬로그램과 센티미터를 동일시 / 비교하는 방법은 원격으로 명확하지 않습니다. 사람들이 사용하는 전략 중 하나는 표준화하는 것입니다아르 자형2아르 자형=아르 자형2.) 따라서 말할 수있는 가장 좋은 점은 특정 범위 내의 한 설명 변수의 변동성이 다른 특정 범위 내의 다른 설명 변수의 변동보다 반응 수준을 결정하는 데 더 중요하다는 것입니다.


2

회귀 모형의 필수 테스트는 완전 감소 테스트입니다. 여기서 2 개의 회귀 모형을 비교하고, 전체 모형에는 모든 항이 포함되어 있으며 축소 테스트에는 해당 항의 하위 집합이 있습니다 (축소 된 모형은 전체 모형에 중첩되어야 함). 그런 다음 검정은 축소 된 모형이 전체 모형뿐만 아니라 적합하며 차이에 의한 우연의 귀무 가설을 검정합니다.

통계 소프트웨어의 일반적인 인쇄물에는 전체 F 테스트가 포함됩니다.이 테스트는 축소 테스트가 인터셉트 전용 모델 인 전체 감소 테스트입니다. 또한 각 개별 예측 변수에 대해 p- 값을 인쇄하는 경우도 있습니다. 이는 일련의 완전 감소 모형 검정 일 뿐이며, 축소 모형에는 특정 항이 포함되지 않습니다. 이 테스트를 사용하여 관심있는 질문에 답변하는 방법에는 여러 가지가 있습니다. 실제로 입문 통계 과정에서 가르치는 거의 모든 테스트는 회귀 모델과 완전 감소 테스트를 사용하여 계산할 수 있으며 결과는 많은 경우에 동일하고 다른 경우에는 매우 가까운 근사치입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.