첫 번째 질문 을 해결하려면 모형을 고려하십시오.
Y=X+sin(X)+ε
평균 제로 및 유한 분산의 iid . 의 범위 (고정 또는 랜덤으로 생각됨)가 증가함에 따라, 는 로 간다. 그럼에도 불구하고, 의 분산 이 작은 경우 (약 1 이하), 데이터는 "눈에 띄게 비선형"이다. 그림에서 입니다.X R 2 ε v a r ( ε ) = 1εXR2εvar(ε)=1
또한 작은 를 얻는 쉬운 방법 은 독립 변수를 좁은 범위로 슬라이스하는 것입니다. 모든 데이터를 기반으로 한 전체 회귀 분석의 가 높은 경우에도 각 범위 내에서 회귀 분석 ( 정확히 동일한 모델 사용 )은 가 낮습니다 . 이 상황을 고려하는 것은 유익한 운동이며 두 번째 질문에 대한 준비입니다.R 2 R 2R2R2R2
다음 그림 모두 동일한 데이터를 사용합니다. 전체 회귀는 0.86이다. 슬라이스 의 (-5/2에서 5/2 사이의 너비 1/2)는 .16, .18, .07, .14, .08, .17, .20, .12, .01입니다. , .00, 왼쪽에서 오른쪽으로 읽습니다. 10 개의 개별 라인이 좁은 범위 내에서 데이터에보다 밀접하게 일치 할 수 있기 때문에 슬라이스 상황에서 적합도가 향상 됩니다. 있지만 모든 슬라이스 멀리 전체 이하 , 어느 것도 관계의 강도 선형성 없으며 실제로 모든 데이터의 형태 (내지 제외한 회귀에 사용)로 변경 하였다.R 2 R 2 R 2 XR2R2R2R2X
(이 슬라이싱 프로 시저가 분포를 변경한다고 반대 할 수도 있습니다 . 그러나 사실이지만 고정 효과 모델링에서 를 가장 일반적으로 사용하는 것과 일치하며 가 우리에게 알려주 는 정도를 보여줍니다 랜덤 효과 상황에서 분산 특히 가 자연 범위의 작은 간격 내에서 변화하도록 제한되는 경우 는 일반적으로 감소합니다.)R 2 R 2 X X R 2XR2R2XXR2
의 기본 문제 는 너무 많은 것들 (여러 회귀로 조정될 때조차도)에 의존하지만 가장 독립적 인 변수의 분산과 잔차의 분산에 달려 있다는 것입니다. 일반적으로 모델 시퀀스를 비교하기위한 "선형성"또는 "관계 강도"또는 "적합성"에 대해서는 아무 것도 알려주지 않습니다 .R2
대부분의 경우 보다 더 나은 통계를 찾을 수 있습니다 . 모델 선택의 경우 AIC 및 BIC를 볼 수 있습니다. 모형의 적정성을 표현하기 위해 잔차의 분산을 살펴보십시오. R2
이것은 우리를 마침내 두 번째 질문 으로 인도합니다 . 가 일부 사용 하는 상황 중 하나 는 독립 변수가 표준 값으로 설정되어 본질적으로 분산의 영향을 제어하는 경우입니다. 그러면 는 실제로 잔차의 분산에 대한 대리이며 적절하게 표준화됩니다. 1 - R 2R21−R2