회귀 분석에서 p- 값의 의미


27

일부 소프트웨어 패키지 (예 : Mathematica)에서 선형 회귀를 수행하면 모델의 개별 매개 변수와 관련된 p- 값이 나타납니다. , 예를 들어 결과를 생성하는 선형 회귀 결과 연관된 p- 값 것이다 및 하나 .a bax+bab

  1. 이러한 p- 값은 해당 매개 변수에 대해 개별적으로 무엇을 의미합니까?

  2. 회귀 모형의 모수를 계산하는 일반적인 방법이 있습니까?

  3. 각 매개 변수와 연관된 p- 값을 전체 모델의 p- 값으로 결합 할 수 있습니까?

이 질문을 수학적으로 자연스럽게 유지하기 위해 확률 측면에서 p- 값의 해석만을 찾고 있습니다.


@cardinal 링크 된 질문에 대한 Gavin의 대답은 잘 말합니다.
JM은 통계학자가 아닙니다.

6
@zyx, OP의 질문에 대한 고급 정보는 없습니다. 이들은 매우 내 의견으로는, stats.SE 더 적합 --- 어느로 참가자들은 이상으로 조율뿐만 아니라 거기에 대한 일반적인 질문. Math.SE와 MO는 모두 확률 질문에 대한 훌륭한 자료이지만 통계 자료에 대해서는 훨씬 적습니다. OP의 질문은 후자에 훨씬 더 많이 의지한다.
추기경

@cardinal : 공개 베타가 시작된 이후 stats.SE를 따랐습니다. 지금까지 4800 개 이상의 질문 OP에서 항목 3을 요청하거나 응답하는 질문 을 찾을 수 없었습니다. 이것이 "매우 일반적인"쿼리 인 경우 이상합니다. 나는 몇 번이나 등장했을 때 개념적으로 정확한 답을 보지 못했다. 몇 분 안에 통계로 이동하지 않고 더 많은 청중의 관심을 끌기 위해 정기적으로 math.SE 및 MO에 게시해야한다고 생각합니다. stat.SE를 물어 보는 것도 아프지 않지만 후자를 통계를 논의 할 수있는 유일한 장소로 바꾸는 것은 도움이되지 않습니다.
zyx

meta.math.SE의 math.SE에서 stats.SE 로의 마이그레이션에 대한 스레드가 있습니다.
zyx

(위에서 언급 한 일부 의견은 이전시 소실되었습니다. 원래 수학 .SE 게시물에서 볼 수 있습니다 (아래에서 "이주 ..."단어 옆에 링크 됨))
zyx

답변:


13
  1. 대한 P 값 가설 "의 시험에서 P 값 인 α = 0 "(일반적으로 양면 t -test). 대한 P 값 B는 가설 "의 시험에서의 p 값 β = 0 "(또한 일반적으로 양면 t -test)과 마찬가지로 다른 회귀 계수 대. 이 검정의 확률 모델은 선형 회귀 모델에서 가정 한 확률 모델에 의해 결정됩니다. 최소 제곱 선형 회귀의 경우 쌍 ( a , b )는 실제 모수 값 ( α , β)을 중심으로하는 이변 량 정규 분포를 따릅니다.aα=0tbβ=0ta,bα,β), 각 계수에 대한 가설 검정 은 적합한 정규 분포 (즉, 하나의 변수, 즉 a 또는 b 단독 의 분포)의 표본을 기반으로 α = 0 (resp. β = 0 ) 인지 여부 를 검정하는 것과 같습니다 . 정규 분포가 다소 복잡하고 "자유도"와 "모자 행렬"을 포함하는 나타나는의 세부 사항은 (표기법에 따라 지속적으로 OLS 회귀의 이론에 나타나는 행렬의 일부).tα=0β=0abA^

  2. 예. 일반적으로 Maximum Likelihood Estimation에 의해 수행 (및 정의)됩니다 . 대한 회귀 선형 OLS 및 다른 모델의 소수의 데이터에서 매개 변수를 추정하기위한 정확한 공식이있다. 보다 일반적인 회귀 분석의 경우 솔루션은 본질적으로 반복적이고 수치 적입니다.

  3. 직접 아닙니다. p- 값은 전체 모형의 검정, 즉 모든 계수 (실제로 추정되는 변수의 계수가 존재하므로 "일정한 항"의 계수를 포함하지 않는다는 가설 검정)에 대해 별도로 계산됩니다. 하나). 그러나이 p- 값은 일반적으로 계수의 p- 값에 대한 지식으로 계산할 수 없습니다.


2
당신의 요점 (1.)에는 모수추정 사이에 약간의 혼란이있는 것 같습니다 . -value는 추정기보다는 파라미터와 연관된 상기 추정기는 (적어도 고전 통계 고정 간주) 이변 정상이 아닌 파라미터이다. 그것은 전적으로 가능 (꽤 공통)이기 때문에 개인의 일부 또한, 점 (3) 귀하의 의견은 혼란으로 이어질 수 페이지의 회귀 추정 -values가 공동보다 모두 크고 작게 쪽의 대응에서 - 값 F 테스트. pppF
추기경

@NRH : 죄송합니다. 이전 의견을 명확히 할 수 있습니까? 나는 그것을 아직 따르지 않습니다 (아직). :)
추기경

@cardinal : p- 값이 가설 검정과 연관되어 있다고 말하는 것이 더 정확 해 보입니다. 모수는 검정의 귀무 가설에 나타나고 쌍 (추정값 관찰, 대립 가설)이 p- 값을 결정합니다. 귀무 가설은 원래 답변에서 [부주의하게] 수행 된 추정치 a = 0 대신 α = 0과 같은 매개 변수를 사용하여 설명해야합니다 (오류 지적에 대한 감사). 그러나 "추정자는 모수가 아닌 이변 량 정상입니다"라는 추측이 혼란 스럽거나 누락되었다는 답이 명시 적으로 언급되었습니다.
zyx

1
죄송합니다. 저항 할 수 없었습니다. @zyx는 stat.SE에 대한 답변이 종종 부정확하다는 math.SE의 원래 게시물에 댓글을 달았습니다. 때로는 수학적으로 부정확하지만 많은 답변이 매우 정확 하다는 것을 알았습니다 . 그것은 사물의 본질에 있습니다. 통계적 질문과 답변을 항상 정확한 수학적 진술로 줄일 수는 없습니다. 특히 어려운 것은 아닙니다. 그러나 여기에 제공된 대답은 내 의견으로는 특히 정확하거나 정확하지 않습니다.
NRH

3
공감 한 사람이 설명을 해주면 좋을 것 같아요.
추기경

1

첫 번째 질문 : 선택한 소프트웨어에 따라 다릅니다. 이 시나리오에서 자주 사용되는 p- 값에는 실제로 두 가지 유형이 있으며, 둘 다 일반적으로 우도 비 검정을 기반으로합니다 (다른 것들도 있지만 결과는 동일하거나 적어도 약간 다릅니다).

이러한 모든 p- 값이 나머지 매개 변수에 대한 조건부 (일부) 임을 인식하는 것이 중요합니다 . 즉 , 다른 모수 추정값이 정확하다고 가정하면 모수에 대한 계수가 0인지 여부를 테스트합니다. 일반적으로 이러한 검정에 대한 귀무 가설은 계수가 0이므로 p- 값이 작 으면 계수 자체가 0이 아닐 가능성이 있음을 의미합니다 (다른 계수의 값에 따라).

유형 I은 모델에서 계수 앞에 오는 계수 값 (왼쪽에서 오른쪽으로)에 따라 각 계수의 영점에 대한 조건부 테스트를 테스트합니다. 유형 III 테스트 (마진 테스트), 다른 모든 계수의 값에 조건부로 각 계수의 영점을 테스트합니다.

일반적으로 두 가지를 모두 얻는 방법이 있지만 도구마다 다른 p- 값이 기본값으로 표시됩니다. 통계 이외의 이유로 매개 변수를 순서대로 포함시킬 이유가없는 경우 일반적으로 유형 III 테스트 결과에 관심이 있습니다.

마지막으로 (마지막 질문과 더 관련이 있음), 우도 비율 검정을 사용하면 나머지 조건부 조건에 대한 계수 세트에 대한 검정을 항상 만들 수 있습니다. 여러 계수를 동시에 0으로 테스트하려는 경우 갈 수있는 방법입니다 (그렇지 않으면 불쾌한 여러 테스트 문제가 발생 함).


언급 한 조건에 대해 자세히 설명해 주시겠습니까? 함께 변량 회귀 예측 및 절편 파라미터들의 선형 조합에 가설 테스트 ψ = C ' β의 용도 테스트 통계 t = ψ - ψ 0pψ=cβ ...t=ψ^ψ0σ^c(XX)1c
스라소니

여기서 ψ = C ' ββ가 매개 변수의 추정 인 벡터 및 C 계수의 벡터. X는 설계 행렬이며, σ 잔류 표준 오류입니다 | | 전자 | | 2 / ( n ( p + 1 ) ) 에서 e 는 제공된 모형의 잔차 벡터입니다. 단일 매개 변수 j 가 0 인 테스트의 경우 cj입니다.ψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcj번째의 단위 벡터와 . 모델 비교가 t에 대한 롤을하는 곳을 보지 못했습니다 . ψ0=0t
caracal

문제의 본질은 예를 들어 여기에 캡처 됩니다 . anova는 회귀의 특별한 경우라는 것을 기억하십시오. 기본적으로 이것은 다음과 같습니다. 변수 B가 있거나없는 모델에서 변수 A의 제로 계수를 테스트하면 다른 결과를 얻을 수 있습니다. 따라서 결과는 모델, 데이터 (변수 B 값의 경우에도) 및 테스트가 아닌 모델의 계수에 따라 결정됩니다. 수학에서 그 아이디어를 찾는 것이 다소 어려울 수 있습니다 :-)
Nick Sabbe

사실, 그러나 anova 가설 은 요인 의 p 그룹에 해당하는 모든 효과 매개 변수 가 동시에 0 인지 여부를 테스트합니다. 이 가설은 c ' β (여기서는 단일 매개 변수 β j )와 다르며 a 다른 검정 통계량 : F = ( S S e r - S S e u ) / ( d f e r - d f e u )p1pcββj 여기서SSerdfer은 잔차 제곱합| | 전자R| | 제한 모델의 경우2와 df, 제한 모델의 경우u도 마찬가지입니다. 분명히 이것은 실제로 제한 및 제한되지 않은 모델의 선택에 달려 있습니다. F=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2u
스라소니

연속적인 경우는 이분법적인 0-1 인코딩 변수와 완전히 동일해야합니다.
Nick Sabbe
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.