다중 선형 회귀 분석에서 p- 값 이해


12

다중 선형 회귀 분석의 p- 값과 관련하여 Minitab 웹 사이트 의 소개 는 아래와 같습니다.

각 항에 대한 p- 값은 계수가 0 (영향 없음)이라는 귀무 가설을 검정합니다. 낮은 p- 값 (<0.05)은 귀무 가설을 기각 할 수 있음을 나타냅니다. 다시 말해, p- 값이 낮은 예측 변수는 예측 변수 값의 변화가 반응 변수의 변화와 관련이 있기 때문에 모형에 의미있는 추가 요소가 될 수 있습니다.

예를 들어, 결과 MLR 모델은 . 출력은 아래와 같습니다. 그런 다음 이 방정식을 사용하여 를 계산할 수 있습니다.와이=0.46753엑스10.2668엑스2+1.6193엑스+4.5424엑스4+14.48와이

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

위의 소개를 바탕으로, 귀무 가설은 계수가 0이라는 것입니다. 제 이해는 계수, 예를 들어 의 계수가 0으로 설정되고 다른 y가 로 계산 됨을 이해합니다. . 그런 다음 및 대해 쌍을 이루는 t- 검정이 수행 되지만이 t- 검정의 p- 값은 6.9e-12이며 0.1292 ( 의 계수의 p- 값)와 같지 않습니다 .엑스4와이2=0.46753엑스10.2668엑스2+1.6193엑스+0엑스4+14.48와이와이2엑스4

누구나 올바른 이해를 도울 수 있습니까? 많은 감사합니다!


회귀 루틴의 결과를 보여줄 수 있습니까?
Aksakal

p- 값 계산에 대한 설명은 비표준입니다. 설명하는 방식으로 계산해야하는 이유는 무엇입니까? 출력의 p- 값은 변수의 Var-Cov 행렬에서 계산됩니다. Wald와 같은 제한 테스트를 실행하려면 설명하는 방식이 아닙니다. 3 개의 변수로 모형을 재 추정하고 로그 가능성 등을 얻어야합니다.
Aksakal

1
이 소개에 따르면 p- 값만 작기 때문에 "중요한"변수 ( "절편")는 하나뿐입니다. 인용에서 순진하고 오도하는 관행을 넘어서려면 다중 회귀에 대해 자세히 알아야합니다. 이와 관련하여 배울 수있는 내용을 확인하려면 사이트에서 관련 스레드를 살펴 보십시오 .
whuber

2
다음 두 가지 질문에 대한 답변을 확인하십시오 : -stats.stackexchange.com/questions/5135/…-stats.stackexchange.com/questions/126179/… p- 값 계산 방법을 이해하는 데 도움이 되었으므로 찾을 수 있기를 바랍니다. 도움이되었습니다.
Giacomo

답변:


7

몇 가지 이유로 올바르지 않습니다.

  1. "없이"모델 X4는 반드시 다른 값들에 대해 동일한 계수 추정치를 가질 필요는 없습니다. 축소 된 모델을 장착하고 직접 확인하십시오.

  2. 와이

  3. 계수의 통계적 유의성에 대해 수행되는 통계적 테스트는 하나의 샘플 t- 테스트입니다. X4에 대해 여러 계수의 "샘플"이 없기 때문에 혼란 스럽지만 중앙 한계 정리를 사용하여 이러한 샘플의 분포 특성을 추정 할 수 있습니다. 평균 및 표준 오차는 이러한 제한 분포의 위치 및 모양을 설명합니다. "Est"열을 "SE"로 나누고 표준 정규 분포와 비교하면 4 번째 열의 p- 값이 제공됩니다.

  4. 네 번째 요점 : minitab의 도움말 페이지에 대한 비판입니다. 이러한 도움말 파일은 한 단락에서 수년간의 통계 훈련을 요약 할 수 없으므로 전체적으로 다룰 필요가 없습니다. 그러나 "예측 자"가 "중요한 기여"라고 말하는 것은 모호하고 아마도 부정확합니다. 다변량 모델에 포함 할 변수를 선택하는 이론적 근거는 미묘하며 통계적 추론이 아니라 과학적 추론에 의존합니다.


0

p- 값에 대한 초기 해석은 정확 해 보입니다. 즉, 절편 만 0과 크게 다른 계수를가집니다. x4에 대한 계수의 추정치는 여전히 매우 높지만 유의하지 않은 오류가 있음을 알 수 있습니다 0과 다릅니다.

y1과 y2의 쌍으로 이루어진 t 검정은 모형이 서로 다르다는 것을 나타냅니다. 한 모델에는 모델에 상당한 기여를하는 크고 정확한 계수가 포함되어 있습니다. 이들 모델의 p- 값이 서로 다르다고 생각할 이유가 없습니다. x4 계수의 p- 값이 0과 다르다고 생각할 필요는 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.