여러 선형 회귀 분석을 사용하여 다양한 변수의 모델을 만드는 데 익숙합니다. 그러나 회귀 테스트가 기본 가설 테스트를 수행하는 데 사용되는지 궁금합니다. 그렇다면 해당 시나리오 / 가설은 어떻게 생겼습니까?
여러 선형 회귀 분석을 사용하여 다양한 변수의 모델을 만드는 데 익숙합니다. 그러나 회귀 테스트가 기본 가설 테스트를 수행하는 데 사용되는지 궁금합니다. 그렇다면 해당 시나리오 / 가설은 어떻게 생겼습니까?
답변:
다음은 간단한 예입니다. R에 익숙한 지 잘 모르겠지만 코드가 충분히 설명되어 있기를 바랍니다.
set.seed(9) # this makes the example reproducible
N = 36
# the following generates 3 variables:
x1 = rep(seq(from=11, to=13), each=12)
x2 = rep(rep(seq(from=90, to=150, by=20), each=3 ), times=3)
x3 = rep(seq(from=6, to=18, by=6 ), times=12)
cbind(x1, x2, x3)[1:7,] # 1st 7 cases, just to see the pattern
x1 x2 x3
[1,] 11 90 6
[2,] 11 90 12
[3,] 11 90 18
[4,] 11 110 6
[5,] 11 110 12
[6,] 11 110 18
[7,] 11 130 6
# the following is the true data generating process, note that y is a function of
# x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
# & that x2 tends to have less influence on the response variable than x1:
y = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)
reg.Model = lm(y~x1+x2+x3) # fits a regression model to these data
이제 이것이 어떻게 보이는지 봅시다 :
. . .
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.76232 27.18170 -0.065 0.94871
x1 3.11683 2.09795 1.486 0.14716
x2 0.21214 0.07661 2.769 0.00927 **
x3 0.17748 0.34966 0.508 0.61524
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
. . .
F-statistic: 3.378 on 3 and 32 DF, p-value: 0.03016
출력의 "계수"섹션에 집중할 수 있습니다. 모델에서 추정 한 각 매개 변수는 자체 행을 가져옵니다. 실제 추정치 자체가 첫 번째 열에 나열되어 있습니다. 두 번째 열에는 추정 의 표준 오류 , 즉이 과정을 계속 반복해서 반복 할 경우 표본에서 표본으로 '반복'할 추정치의 추정치가 나열 됩니다. 보다 구체적으로, 추정치의 샘플링 분포 의 표준 편차의 추정치입니다. 각 모수 추정값을 SE로 나누면 t-score 가 표시되며 세 번째 열에 나열됩니다. 이것은 가설 검정, 특히 모수 추정치가 0과 '상당히'다른지 여부를 검정하기 위해 사용됩니다. 마지막 열은해당 t- 점수와 연관된 p- 값 . 귀무 가설이 참인 경우 0에서 멀거나 그 이상으로 추정 된 값 을 찾을 확률입니다 . 귀무 가설이 사실이 아닌 경우,이 값이 우리에게 의미있는 것을 알려주는 것은 확실하지 않습니다.
Coefficients 테이블과 위의 실제 데이터 생성 프로세스를 앞뒤로 살펴보면 몇 가지 흥미로운 것을 볼 수 있습니다. 절편은 -1.8로 추정되고 SE는 27 인 반면, 참값은 15입니다. 연관된 p- 값이 .95이므로 0 ( 유형 II 오류 )과 '상당히 다른'것으로 간주되지 않지만 그럼에도 불구하고 그것은 진정한 가치의 하나의 SE 내에있다 . 따라서 실제 가치와 변동해야 할 금액의 관점에서이 추정치에 대해 극히 극단적 인 것은 없습니다. 우리는 단순히 그것을 0과 구별 할 힘 이 충분하지 않습니다.x1
x2
x3
x1
확률 변수보다 반응 변수를 더 잘 예측합니다. 이를 나타내는 또 다른 방법은 모든 추정값을 0과 차별화 할 수없는 것으로 간주 해야하는지 여부 입니다.이 테스트의 결과는 모수 추정값 중 적어도 일부가 0과 같지 않다는 것을 시사합니다. 위의 4 가지 테스트가 있기 때문에이를 제외하고는 여러 비교 문제 로부터 보호 할 수 없습니다 . (p- 값은 임의의 변수이므로 중요한 것이 든 실험이 다시 실행되는 경우 실험마다 다를 수 있으므로 서로 일치하지 않을 수 있음을 명심하십시오. CV here : 다중 회귀 분석에서 계수의 중요성 : 유의미한 t- 검정 대 유의하지 않은 F- 통계량반대의 상황 : 회귀가 어떻게 중요 할 수 있지만 모든 예측 변수가 중요 하지 않은지, 그리고 여기에서 : 회귀의 F 및 t 통계입니다 .) 아마도이 예 에는 제 1 종 오류 가 없을 것 입니다. 여하튼, 이 단락에서 논의 된 5 가지 테스트는 모두 가설 테스트입니다.
귀하의 의견에서, 하나의 설명 변수가 다른 설명 변수보다 더 중요한지 결정하는 방법에 대해 궁금 할 것입니다. 이것은 매우 일반적인 질문이지만 매우 까다 롭습니다. 선수의 키와 몸무게를 기준으로 스포츠에서 성공할 가능성을 예측하고 어느 것이 더 중요한지 궁금하다고 상상해보십시오. 일반적인 전략은 어떤 추정 계수가 더 큰지 확인하는 것입니다. 그러나 이러한 추정치는 사용 된 단위에 따라 다릅니다. 예를 들어 무게 계수는 파운드 또는 킬로그램 사용 여부에 따라 달라집니다. 또한 파운드와 인치 또는 킬로그램과 센티미터를 동일시 / 비교하는 방법은 원격으로 명확하지 않습니다. 사람들이 사용하는 전략 중 하나는 표준화하는 것입니다.) 따라서 말할 수있는 가장 좋은 점은 특정 범위 내의 한 설명 변수의 변동성이 다른 특정 범위 내의 다른 설명 변수의 변동보다 반응 수준을 결정하는 데 더 중요하다는 것입니다.
회귀 모형의 필수 테스트는 완전 감소 테스트입니다. 여기서 2 개의 회귀 모형을 비교하고, 전체 모형에는 모든 항이 포함되어 있으며 축소 테스트에는 해당 항의 하위 집합이 있습니다 (축소 된 모형은 전체 모형에 중첩되어야 함). 그런 다음 검정은 축소 된 모형이 전체 모형뿐만 아니라 적합하며 차이에 의한 우연의 귀무 가설을 검정합니다.
통계 소프트웨어의 일반적인 인쇄물에는 전체 F 테스트가 포함됩니다.이 테스트는 축소 테스트가 인터셉트 전용 모델 인 전체 감소 테스트입니다. 또한 각 개별 예측 변수에 대해 p- 값을 인쇄하는 경우도 있습니다. 이는 일련의 완전 감소 모형 검정 일 뿐이며, 축소 모형에는 특정 항이 포함되지 않습니다. 이 테스트를 사용하여 관심있는 질문에 답변하는 방법에는 여러 가지가 있습니다. 실제로 입문 통계 과정에서 가르치는 거의 모든 테스트는 회귀 모델과 완전 감소 테스트를 사용하여 계산할 수 있으며 결과는 많은 경우에 동일하고 다른 경우에는 매우 가까운 근사치입니다.