회귀 분석에서 R- 제곱과 p- 값의 관계는 무엇입니까?


17

tl; dr-OLS 회귀 분석의 경우 R 제곱이 높을수록 P- 값이 더 높습니까? 특히 단일 설명 변수 (Y = a + bX + e)의 경우 n 개의 다중 설명 변수 (Y = a + b1X + ... bnX + e)도 알고 싶습니다.

컨텍스트-다양한 변수에 대해 OLS 회귀를 수행하고 선형, 대수 등의 R 제곱 값, 각 설명 (독립적) 변수의 변환을 포함하는 테이블을 생성하여 최상의 설명 기능 양식을 개발하려고합니다. 그리고 응답 (종속) 변수. 이것은 다음과 같습니다.

변수 이름-선형 형식---ln (변수) --exp (변수)-... 등

변수 1 ------- R- 제곱 ---- R- 제곱 ---- R- 제곱
-... 등 ...

R- 제곱이 적절한 지 또는 P- 값이 더 좋은지 궁금합니다. 아마도 더 중요한 관계는 더 높은 설명력을 암시하기 때문에 어떤 관계가 있을지 모르지만, 그것이 엄밀한 의미인지는 확실하지 않습니다.


답변:


15

답은 아니오입니다. 와 전체 회귀 p- 값 사이에는 규칙적인 관계가 없습니다. 는 잔차의 분산에 대한 것과 마찬가지로 독립 변수의 분산에 크게 의존 하기 때문 입니다. 반비례)하고 독립 변수의 분산을 임의의 양으로 자유롭게 변경할 수 있습니다.R 2R2R2

예를 들어, 고려 모든 변수 데이터 세트 함께 경우를 인덱싱하고 제 독립 변수의 값으로 설정하는 것이 생각 , 은 고유 한 최대 양수 두 번째로 높은 값과 구분합니다 . 미만의 모든 값을 범위로 보내고 자체를 일부 큰 값 보내는 첫 번째 변수의 비선형 변환을 적용하십시오 . 그런((xi1,xi2,,xip,yi))i{xi1}xϵxϵ/2[0,1]xM1M예를 들어 적절한 (확장 된) Box-Cox 변환 으로 수행 할 수 있습니다. 이상하거나 "병리학." 그런 다음 이 임의로 커지면 는 적합치가 얼마나 나쁜지에 관계없이 원하는만큼 에 가깝게 접근 합니다. 왜냐하면 잔차의 분산은 제한되고 첫 번째 독립 변수의 분산은 무조건 비례하기 때문입니다. .xa((xx0)λ1)/(λ1))MR21M2


대신 다른 기법 중에서도 적합도 검정을 사용 하여 탐색에서 적절한 모형을 선택해야합니다 . 적합치선형성 과 잔차 의 동질성 에 대해 걱정해야합니다 . 그리고 신뢰에 대한 결과 회귀 분석에서 p- 값을 취하지 마십시오.이 연습을 거친 후에는 거의 무의미합니다. 해석의 해석은 독립 변수 표현의 선택이 종속 변수가 전혀 없으며 여기서는 그렇지 않습니다.


10

이 답변은 중심 문제를 직접 다루지는 않습니다. 댓글에 비해 너무 긴 추가 정보에 지나지 않습니다.

econometricstatsquestion이 의심 할 여지 없이이 정보 또는 어느 시점에서 ( 와 관련되어 있음을 나타내는) 이와 유사한 것을 만나고 여기에 다른 답변에 제공된 정보가 잘못된 지 궁금해하기 때문에 이것을 지적합니다. 무슨 일이 일어나고 있는지 명확하게 지불한다고 생각합니다.FR2

특정 상황에서 관계가 있습니다. 당신이 관찰의 수와 해당 모델에 대한 고정 예측의 수를 유지하는 경우, 사실상의 단조에 이후,FR2

F=R2/(k1)(1R2)/(Nk)

분자와 분모를 나누고 상수를 과 일정하게 유지하면 임을 알 수 있습니다 .R2k1/F1/R21Nk

고정 된 df 및 p- 값은 단조 적으로 관련 되기 때문에 , 및 값은 또한 단조 적으로 관련된다.FR2p

그러나 모델에 대해 거의 모든 것을 변경하면 변경된 환경에서 관계가 유지되지 않습니다.

예를 들어, 점을 추가하면 커지고 하나를 제거하면 더 작아 지지만 늘리거나 줄일 수 있으므로 와 반드시 함께 움직일 필요 는 없습니다. 데이터를 추가하거나 삭제합니다. 변수를 추가하면 하지만 증가 하고 그 반대도 마찬가지이므로 는 반드시 와 관련이있는 것은 아닙니다 .R 2 F R 2 ( N - K ) / ( K - 1 ) R 2 R 2 F(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2F

당신이 비교하면 분명, 와 -values을 통해 서로 다른 특성을 가진 모델 whuber 비선형 변환의 경우 입증,이 관계는 반드시 보유하지 않습니다. pR2p


나는 당신에게 동의하지 않지만, 당신이 저와 다른 질문에 대답하고있는 것 같습니다. 약간의 독서가 필요했지만 (caeteris paribus) 독립 변수가 비선형 적으로 변형 될 때 와 사이에 어떤 관계가 있는지에 대한 질문이 나왔습니다. 그러한 변수가 변경되지 않은 채로 있거나, 또는 대부분 그들 사이 에서 선형 적으로 변형 된 경우에만 그러한 관계에 대해 말할 수 있습니다. 그것은 "주어진 모델에 대한"한정자를 이해해야한다는 의미의 일부입니다. R 2pR2
whuber

다른 질문에 대답하고 있습니다. 그 의미에 대한 당신의 해석이 정확하다고 생각합니다. 내가 제기 한 것과 같은 문제가 설명되지 않으면 혼란을 초래할 것이라고 더 걱정했다. 당신의 모든 요점은 내 이해에 달려 있습니다. (실제로, 내 대답이 내가 원했던 것처럼 명확하게 설명하는 것이 아니라 문제를 혼란스럽게 만드는 것에 대해 우려하고 있습니다. 도움이 될만한 적절한 수정이 있다고 생각하십니까? 삭제해야합니까?)
Glen_b-복지 주 모니카

글렌이 삭제 된 것을보고 싶지 않습니다. 변경하려는 경우이 이슈의 어떤 측면 ( 예 : "주어진 모델"의 의미와 "다른 특성"의 모델에 대해 염두에두고 있는 것)을보다 명확하게 지적하십시오 . 이것이 제가 의견을 제시 한 정신 (협업 적, 비판적이 아님)이었습니다.
whuber

나는 당신에게 비난을 느끼지 않았습니다. 당신은 명확하게 보이고 더 이상 아무것도 아닌 것 같았습니다. 그러나 그것이 필요하다는 것은 당신이 논평하기 전에 내가 걱정했던 대답에 부적절 함을 강조합니다. '다른 특성들'의 모호함은 매우 일반적인 일이기 때문에 무엇이든 다를 수 있습니다. (점수를 제거하거나 변수를 추가하는 것만으로도 간단한 것으로 예를 들어서 약간의 변화가 필요한 것을 설명 할 수 있습니다) 단조로운 관계를 만들 수 있습니다 죽다. 내가 더 말할 수있는 것에 대해 생각할 것입니다.
Glen_b-복지 주 모니카

편집을 위해 +1 : 유용한 주석이며 대한 공식이 나타나는 것이 특히 유용합니다 . F
whuber

4

"OLS 회귀 분석의 경우, R 제곱이 높을수록 P- 값이 더 높습니까? 특히 단일 설명 변수 (Y = a + bX + e)의 경우"

특히 단일 설명 변수의 경우 샘플 크기가 주어진 경우 대답은 '예'입니다. Glen_b가 설명했듯이 와 검정 통계량 ( 또는 ) 사이에는 직접적인 관계가 있습니다 . 예를 들어 하나의 공변량 (및 상수)을 갖는 단순 선형 회귀에 대한 이 다른 질문 ( 단순 선형 회귀의 경우 높은 제곱 및 높은 값) 에서 설명한 바와 같이 와 의 관계 는 다음과 같습니다. F t R 2 p t R 2R2FtR2ptR2

|t|=R2(1R2)(n2)

따라서이 경우 을 고정 하면 가 높을수록 통계 가 높아지고 p- 값이 낮아집니다.R 2 tnR2t

"하지만 n 개의 설명 변수 (Y = a + b1X + ... bnX + e)도 알고 싶습니다."

답은 동일하지만 하나의 변수 만 보는 대신 모든 변수를 함께 봅니다. 따라서 Glen_b가 보여준 것처럼 통계량입니다. 그리고 여기에 과 매개 변수 수를 모두 수정해야합니다 . 또는 더 잘 표현하려면 자유도를 고정하십시오.NFn

컨텍스트-다양한 변수에 대해 OLS 회귀를 수행하고 최상의 설명 기능 양식을 개발하려고합니다 (...)

좋아, 이것은 실제로 다른 문제입니다. 최상의 설명 기능 양식을보고있는 경우 교차 유효성 검사 기술도 살펴 봐야 합니다. 경우에도 는 일반적으로 연구 결과는 샘플 밖으로 일반화하려면, 적절한 교차 검증 - 당신의 문제에 대한 관심의 양이 매우 오해의 소지가 될 수 있습니다에서 샘플에 가장 적합한을 발견, (보통되지 않습니다) 데이터를 지나치게 과도하게 사용하지 않도록 도와줍니다.R2

그리고 여기서는 "예측력"을 원한다고 추측합니다 ( "최상의 설명 기능 형태"를 찾으려고하므로). 예를 들어 인과 추론을 원한다면 또는 기타 예측 성능 메트릭은 문제에 대한 구조적 / 실질적인 지식 없이는 거의 도움이되지 않습니다.R2

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.