233

Cosma Shalizi의 강의 노트 (특히 두 번째 강의 섹션 2.1.1)를 훑어 보았 으며 완전히 선형 인 모델을 사용하더라도 가 매우 낮아질 수 있음을 상기 시켰습니다 R2.

Shalizi의 예를 의역 : 당신이 모델이 있다고 가정 Y=aX+ϵ , a 알려져있다. 그런 다음 이며 설명 된 분산 량은 따라서 입니다. 이것은 되고 \ Var [X] \ rightarrow \ infty로 1이 됩니다.Var[Y]=a2Var[x]+Var[ϵ]a2Var[X] Var[X]0Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

반대로, 모델이 눈에 띄게 비선형 R2 때도 높은 R ^ 2를 얻을 수 있습니다 . (누군가 좋은 예가 있습니까?)

그래서 때입니다 R2 유용한 통계, 때 무시해야 하는가?


5
다른의 관련 코멘트 스레드주의 최근 질문
whuber의

36
나는 주어진 훌륭한 답변 (예 : @ whuber의 답변)에 추가 할 통계 가 없지만 정답 은 "R 제곱 : 유용 하고 위험합니다" 라고 생각합니다 . 통계와 거의 비슷합니다.
Peter Flom

32
이 질문에 대한 답변은 : "Yes"
Fomite

또 다른 답변 은 stats.stackexchange.com/a/265924/99274 를 참조하십시오 .
Carl

예제 스크립트에서 당신이 무엇을 우리에게 말할 수없는 한 매우 유용하지 않습니다 무엇입니까? 경우 A가 일정하게, 너무, 당신의 / 그녀의 인수 이후, 잘못입니다 그러나, 경우에 비 - 상수 작은 에 대해 에 대해 를 플로팅 하고 이것이 선형이라고 말해주세요 ........ϵ ϵ Var ( a X + b ) = a 2 Var ( X ) ϵ Y X Var ( X )Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

답변:


264

첫 번째 질문 을 해결하려면 모형을 고려하십시오.

Y=X+sin(X)+ε

평균 제로 및 유한 분산의 iid . 의 범위 (고정 또는 랜덤으로 생각됨)가 증가함에 따라, 는 로 간다. 그럼에도 불구하고, 의 분산 이 작은 경우 (약 1 이하), 데이터는 "눈에 띄게 비선형"이다. 그림에서 입니다.X R 2 ε v a r ( ε ) = 1εXR2εvar(ε)=1

X의 단거리

X의 넓은 범위

또한 작은 를 얻는 쉬운 방법 은 독립 변수를 좁은 범위로 슬라이스하는 것입니다. 모든 데이터를 기반으로 한 전체 회귀 분석의 가 높은 경우에도 각 범위 내에서 회귀 분석 ( 정확히 동일한 모델 사용 )은 가 낮습니다 . 이 상황을 고려하는 것은 유익한 운동이며 두 번째 질문에 대한 준비입니다.R 2 R 2R2R2R2

다음 그림 모두 동일한 데이터를 사용합니다. 전체 회귀는 0.86이다. 슬라이스 의 (-5/2에서 5/2 사이의 너비 1/2)는 .16, .18, .07, .14, .08, .17, .20, .12, .01입니다. , .00, 왼쪽에서 오른쪽으로 읽습니다. 10 개의 개별 라인이 좁은 범위 내에서 데이터에보다 밀접하게 일치 할 수 있기 때문에 슬라이스 상황에서 적합도가 향상 됩니다. 있지만 모든 슬라이스 멀리 전체 이하 , 어느 것도 관계의 강도 선형성 없으며 실제로 모든 데이터의 형태 (내지 제외한 회귀에 사용)로 변경 하였다.R 2 R 2 R 2 XR2R2R2R2X

완전 회귀가있는 점 구름

회귀가 10 개인 슬라이스 포인트 클라우드

(이 슬라이싱 프로 시저가 분포를 변경한다고 반대 할 수도 있습니다 . 그러나 사실이지만 고정 효과 모델링에서 를 가장 일반적으로 사용하는 것과 일치하며 가 우리에게 알려주 는 정도를 보여줍니다 랜덤 효과 상황에서 분산 특히 가 자연 범위의 작은 간격 내에서 변화하도록 제한되는 경우 는 일반적으로 감소합니다.)R 2 R 2 X X R 2XR2R2XXR2

의 기본 문제 는 너무 많은 것들 (여러 회귀로 조정될 때조차도)에 의존하지만 가장 독립적 인 변수의 분산과 잔차의 분산에 달려 있다는 것입니다. 일반적으로 모델 시퀀스를 비교하기위한 "선형성"또는 "관계 강도"또는 "적합성"에 대해서는 아무 것도 알려주지 않습니다 .R2

대부분의 경우 보다 더 나은 통계를 찾을 수 있습니다 . 모델 선택의 경우 AIC 및 BIC를 볼 수 있습니다. 모형의 적정성을 표현하기 위해 잔차의 분산을 살펴보십시오. R2

이것은 우리를 마침내 두 번째 질문 으로 인도합니다 . 가 일부 사용 하는 상황 중 하나 는 독립 변수가 표준 값으로 설정되어 본질적으로 분산의 영향을 제어하는 ​​경우입니다. 그러면 는 실제로 잔차의 분산에 대한 대리이며 적절하게 표준화됩니다. 1 - R 2R21R2


26
@whuber
Peter Flom

AIC 및 BIC가 추정 된 매개 변수 수에 대해 명시 적으로 조정되지 않습니까? 그렇다면, 비교되지 않은 R ^ 2와 비교하는 것은 불공평 한 것 같습니다. 그래서 당신의 비평은 조정 된 R ^ 2를 가지고 있습니까? 조정 된 R ^ 2가 모델의 적합도에 대해 다시 말해 줄 수있는 '슬라이스'에 대해 벌칙을받은 것처럼 보입니다.
russellpierce

7
@dr 내 비평은 조정 된 완벽하게 적용됩니다 . 와 조정 된 사이에 큰 차이가있는 유일한 경우 는 데이터와 비교 하여 많은 매개 변수를 사용하는 경우입니다. 슬라이싱 예제에는 거의 1,000 개의 데이터 포인트가 있었고 슬라이싱에는 18 개의 매개 변수 만 추가되었습니다. 로 조정 도 아마도 몇 다스 데이터 포인트가 있었다 끝 부분을 제외하고, 소수점 둘째 자리에 영향을주지 않습니다 : 그것은 것입니다 낮은 실제로 인수를 강화하고, 그들을. R 2 R 2 R 2R2R2R2R2
whuber

5
첫 번째 의견의 질문에 대한 답변은 목표에 따라 달라지며 "선형 관계 테스트"를 해석하는 몇 가지 방법이 있습니다. 하나는 계수가 0이 아닌지 테스트하려는 것입니다. 다른 하나는 비선형 성의 증거가 있는지 알고 싶다는 것입니다. 우리가 높은 것을 알고 있지만 (그 자체로)는 하나에 대단히 유용하지 않습니다 데이터 가득한 자신의 산점도를 의미 대략 선형 보이는 - 내 두 번째 또는 같은 @ 매크로의 예처럼. 각 목표에 대해 적절한 테스트와 관련 p- 값이 있습니다. R 2R2R2
whuber

4
두 번째 질문은 "최고의"선형 피팅이 무엇을 의미하는지 궁금합니다. 한 후보는 잔차 제곱합을 최소화하는 적합도입니다. 이를 위해 프록시로 를 안전하게 사용할 수 있지만 (조정 된) 근 평균 제곱 오류 자체를 조사하지 않는 이유는 무엇입니까? 더 유용한 통계입니다. R2
whuber

47

예제는 변수 가 모델에 있어야 하는 경우에만 적용됩니다 . 일반적인 최소 제곱 추정을 사용할 때는 확실히 적용되지 않습니다. 이를 확인하기 위해 귀하의 예에서 최소 제곱을 추정 하면 다음과 같은 결과를 얻습니다.X a

여기서s 2 X =1

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
상기 (샘플)의 분산X ¯ X =1sX2=1Ni=1N(XiX¯)2X의 (시료) 평균 인XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

이제 두 번째 항은 항상 보다 작습니다 ( 한계의 1 과 같음 ) . 변수 X 에서 R 2 에 대한 기여 의 상한 을 얻습니다 .11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

그리고 그렇지 않으면 또한 실제로 우리는R20s 2 X로보게됩니다(분자는 0이되지만 분모는Var[ϵ]>0). 또한,두 항이 얼마나 빨리 분기되는지에 따라R20에서1사이의 수렴될 수 있습니다. 이제 위의 용어는 일반적으로(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201 하면 X가 모델에 있어야하고, 경우 느린 X가 모델에 있으면 안됩니다. 두 경우 모두 R 2 는 올바른 방향으로 진행됩니다.sX2XXR2

또한 유한 데이터 세트 (즉, 실제 데이터 세트)의 경우 모든 오류가 정확히 0이 아니면 가질 수 없습니다 . 이것은 기본적으로 R 2 가 절대 측정 값이 아니라 상대 측정 값 임을 나타냅니다 . R 2 가 실제로 1 과 같지 않으면 항상 더 적합한 피팅 모델을 찾을 수 있습니다. 이것은 아마의 "위험한"측면이다 R 2 사이가되도록 조정되기 때문에 점에서 01 우리가 절대적인 의미에서 해석 할 수있는 것 같다.R2=1R2R21R201

변수를 모델에 추가 할 때 얼마나 빨리 떨어지는 지 살펴 보는 것이 더 유용 할 것 입니다. 마지막으로, 변수 선택에서 R 2 가 효과적으로 충분한 통계량이므로 변수 선택에서 무시해서는 안됩니다. 여기에는 데이터에있는 변수 선택에 대한 모든 정보가 포함됩니다. 필요한 유일한 것은 "오류 맞추기"에 해당하는 R 2 의 드롭을 선택하는 것입니다. 일반적으로 샘플 크기와 변수 수에 따라 다릅니다.R2R2R2


4
+1 많은 좋은 포인트. 계산은 이전 답변에 정량적 통찰력을 추가합니다.
whuber

27

가 위험한 시기의 예를 추가 할 수 있다면 . 몇 년 전 저는 생체 데이터를 연구하고 젊고 어리석은 일이었습니다 . 단계별 함수를 사용하여 만든 멋진 회귀에 대해 통계적으로 유의 한 R 2 값을 찾았을 때 기뻤 습니다. 인구에 대한 샘플의 불량 표현,와 함께 - 그것은 단지 이후 많은 국제 청중에게 나의 프리젠 테이션 후보고되었다 나는 데이터의 거대한 변화를 주어 실현 한 R 0.02도 완전히 무의미 "통계적으로 유의 한"경우 ...아르 자형2아르 자형2아르 자형2

통계를 다루는 사람들은 데이터를 이해해야합니다!


15
의미를 이해하면 통계가 위험하지 않습니다. Sean의 예는 R 제곱과 관련이 없으며 통계적 의미에 매혹되는 일반적인 문제입니다. 실제로 통계 테스트를 수행 할 때 의미있는 차이에만 관심이 있습니다. 두 모집단의 분포는 동일하지 않습니다. 그들이 동등하면 우리는 상관하지 않습니다. 표본 크기가 매우 크면 중요하지 않은 작은 차이를 감지 할 수 있습니다. 이것이 의료 연구 컨설팅에서 임상 적 및 통계적 중요성의 차이를 강조하는 이유입니다.
Michael Chernick

11
처음에 내 고객은 통계적 중요성이 연구의 목표라는 점을 종종 엷게합니다. 그렇지 않다는 것을 보여 주어야합니다.
Michael Chernick

0.02 의 통계적으로 유의 한 는 단순히 R 2 가 0이 아니라고 주장하기에 충분한 데이터가 있음을 의미 합니다. 그러나 0에 가깝습니다. 따라서 독립 변수와 종속 변수 사이에는 관계가 거의 없습니다. R2R2
Michael Chernick

1
마이클에 동의합니다. 통계에 대한 약간의 지식은 위험 할 수 있습니다! :) 몇 년 전의 통찰력을 바탕으로 통계가 실제로 의미하는 바를 더 잘 이해하기 위해 많은 연구를 통해 그 실수를 반복하지 않기 위해 열심히 노력했습니다. 석사 학위와 통계학 박사 학위를 받았는데 여전히 공부를 갈 길이 멀다고 생각합니다!
Sean

고마워 션 귀하의 의견과 겸손에 감사드립니다.
Michael Chernick

16

단일 예측 변수가있는 경우 X 와의 선형 관계 로 설명 할 수있는 Y 의 변동 비율로 ​​정확하게 해석됩니다 . 이 해석은 R 2 의 값을 볼 때 명심해야합니다 .R2YXR2

관계가 선형에 가까울 때만 비선형 관계에서 큰 를 얻을 수 있습니다 . 예를 들어, Y = e X + ε 여기서 X U n i f o r m ( 2 , 3 )ε N ( 0 , 1 )이라고 가정하십시오 . 당신이 계산하면R2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

당신은 주위가 될 찾을 수 의 관계가 명확하게 선형되지 않도록에도 불구하고 (난 단지 시뮬레이션이 근사). 그 이유 인 전자 X는 간격 동안 선형 함수 등 엄청 많이 보인다 ( 2 , 3 ) ..914eX(2,3)


1
Erik과 Macro의 아래 발언에 따르면 아무도 나를 위해 그것을 가지고 있다고 생각하지 않으며 아마도 세 가지 별도의 답변 대신 하나의 결합 된 답변을 얻는 것이 더 낫지 만 왜 그렇게 많은 토론이 당신을 중심으로하는지에 대해 중요한 이유는 무엇입니까? 말한 내용에 fcusing 대신 글을 쓰고 어디에 쓰는가?
Michael Chernick

8
@ MichaelChernick, 나는 어떻게 글을 쓰는지에 대해 "너무 많은"토론이 없다고 생각합니다. 우리가 도와 주려고했던 지침은 "모든 사람이 그렇게했다면이 사이트는 매우 체계적으로 정리되지 않고 따르기가 어려울 것"입니다. 이런 것들에 대해 많은 토론이있는 것처럼 보일지 모르지만, 아마도 당신이 가입 한 이후 매우 활발한 참가자 였기 때문일 것입니다. 이것에 대해 더 이야기하고 싶다면, 관련이없는 대답 아래의 주석 토론보다는 메타에서 스레드를 시작하는 것을 고려하십시오. :
Macro

하나의 폭이 귀하의 예에서 균일 분포를 지원한다면 어떻게 될까요?
Qbik

이 사이트에서 경험을 쌓으면서 간결하고 통합하는 것이 중요하다는 Macro에 동의해야합니다.
Michael Chernick

15

R2R2R2

R¯2=1(1R2)n1np1np


21
R2

6
  1. R2y=x2[0,1]R2[0,1]R2

  2. R2Y=x+ϵR2R2

  3. R2R2

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.