보통 최소 제곱 회귀 의 기하학적 해석은 필요한 통찰력을 제공합니다.
우리가 알아야 할 대부분은 응답이 인 두 회귀 자 과 의 경우에 볼 수 있습니다 . 표준화 계수, 세 벡터가 (우리가 통일을 할 걸릴 수 있습니다) 공통의 길이로 표준화 될 때 또는 "베타는"발생한다. 따라서 및 는 평면 의 단위 벡터 이며, 단위 원에 위치하고 는 해당 평면을 포함 하는 3 차원 유클리드 공간 의 단위 벡터입니다 . 적합치 는 를 에 직교 (수직) 투영 합니다. 이기 때문에엑스1엑스2와이엑스1엑스2이자형2와이이자형삼와이^와이이자형2아르 자형2단순히 의 제곱 길이입니다. 세 차원을 모두 시각화 할 필요조차 없습니다. 필요한 모든 정보를 해당 평면에 그릴 수 있습니다.와이^
직교 회귀 기
가장 좋은 상황은 첫 번째 그림과 같이 회귀자가 직교하는 경우입니다.
이 그림과 나머지 그림에서 나는 지속적으로 단위 디스크를 흰색으로, 회귀자를 검은 색 화살표로 그립니다. 은 항상 오른쪽을 직접 가리 킵니다. 두꺼운 붉은 화살표의 성분 묘사 에 및 이다 : 방향 및 . 의 길이는 그것이 위치한 회색 원의 반지름이지만 는 엑스1와이^엑스1엑스2β1엑스1β2엑스2와이^아르 자형2그 길이 의 제곱 이라는 것을 기억하십시오 .
피타고라스의 정리는 주장
아르 자형2= |와이^|2= |β1엑스1|2+ |β2엑스2|2=β21( 1 ) +β22( 1 ) =β21+β22.
피타고라스 정리는 여러 차원으로 유지되기 때문에이 추론은 여러 회귀 자에 일반화되어 첫 번째 결과를 산출합니다.
회귀자가 직교 인 경우 는 베타 제곱의 합과 같습니다.아르 자형2
즉각적인 결과는 단 하나의 회귀 분석기 (단 변량 회귀 분석)가있을 때 가 표준화 된 기울기의 제곱이라는 것입니다.아르 자형2
상관
음의 상관 회귀 분석기는 직각보다 큰 각도에서 만납니다.
이 이미지에서 베타 제곱의 합이 보다 엄청나게 큰 것을 알 수 있습니다. 이것은 코사인의 법칙을 사용하거나 정규 방정식의 행렬 솔루션을 사용하여 대수적으로 증명할 수 있습니다.아르 자형2
두 회귀자를 거의 평행하게 만들어서 원점 근처 ( 근처 )에 배치 할 수 있지만 및 방향으로 계속 큰 구성 요소를 갖습니다 . 따라서, 가 얼마나 작은 지에 대한 제한은 없다 .와이^아르 자형20x1x2R2
이 명백한 결과, 두 번째 일반성을 기념합시다 :
회귀 분석기가 서로 관련되어있을 때, 는 베타 제곱의 합보다 임의로 작을 수있다.R2
그러나 다음 그림에서 볼 수 있듯이 이것은 보편적 인 관계가 아닙니다.
이제 는 베타 제곱의 합을 엄격하게 초과합니다. 두 회귀자를 서로 가깝게 그리고 그 사이에 유지 함으로써, 가 가까울 지라도 베타가 에 근접하게 만들 수 있습니다 . 추가 분석을 위해서는 대수학이 필요할 수 있습니다.R2y^1/2R21
나는 양의 상관 회귀 자와 비슷한 예를 만들어 상상할 수있게하여 예각으로 만난다.
이러한 결론은 불완전하다는 점에 주목 하십시오. 베타의 제곱의 합에 비해 가 얼마나 적을 지에 대한 한계 가 있습니다. 특히 가능성을주의 깊게 검토하여 (두 회귀자가있는 회귀) 결론을 내릴 수 있습니다.R2
회귀 분석기가 양의 상관 관계가 있고 베타에 공통의 부호가 있거나, 회귀 분석기가 음의 상관 관계가 있고 베타가 다른 부호를 갖는 경우, 는 적어도 베타의 제곱의 합만큼 커야한다. R2
대수 결과
일반적으로 회귀 변수는 (열 벡터) 이고 응답은 입니다. 표준화 수단 (a) 각각은 벡터 과 직교 하며 (b) 단위 길이가 있습니다.x1,x2,…,xpy(1,1,…,1)′
|xi|2=|y|2=1.
열 벡터 를 행렬 로 어셈블합니다 . 행렬 곱셈의 규칙은xin×pX
Σ=X′X
의 상관 행렬입니다 . 베타는 정규 방정식으로 주어집니다.xi
β=(X′X)−1X′y=Σ−1(X′y).
또한 정의에 따르면 적합도는
y^=Xβ=X(Σ−1X′y).
제곱 길이는 정의에 따라 를 제공합니다.R2
R2=|y^|2=y^′y^=(Xβ)′(Xβ)=β′(X′X)β=β′Σβ.
기하 분석에서는 와 베타 제곱의 합과 관련된 불평등 을 찾은 것으로 나타났습니다.R2
∑i=1pβ2i=β′β.
행렬 의 규범은 계수의 제곱의 합으로 기본적으로 제공됩니다 (기본적으로 행렬을 유클리드 공간에서 성분 의 벡터로 처리 ).L2Ap2
|A|22=∑i,ja2ij=tr(A′A)=tr(AA′).
코시-슈바르츠 불평등
R2=tr(R2)=tr(β′Σβ)=tr(Σββ′)≤|Σ|2|ββ′|2=|Σ|2β′β.
제곱 상관 계수를 초과 할 수 없기 때문에 단있다 그들 중 행렬 , 초과 할 수 . 따라서1p2p×pΣ|Σ|21×p2−−−−−√=p
R2≤pβ′β.
예를 들어, 모든 가 완벽하게 양의 상관 관계를 갖는 경우 불평등이 달성됩니다 .xi
크기에는 상한 이 있습니다. 회귀 자당 평균값 는 표준화 된 계수의 제곱합을 초과 할 수 없습니다.R2R2/p
결론
우리는 일반적으로 무엇을 결론 낼 수 있습니까? 분명히, 회귀 분석기 의 상관 관계 구조 와 베타 의 부호에 관한 정보 는 가능한 값을 묶 거나 정확하게 계산하기 위해 사용될 수있다 . 완전한 정보가 없다면 회귀자가 선형 적으로 독립적 일 때, 0이 아닌 단일 베타 는 가 0이 아니라는 것을 암시하며 가 0 이 아님을 암시 합니다.R2y^R2
우리가 문제의 결과에서 분명히 결론을 내릴 수있는 한 가지는 데이터가 서로 관련되어 있다는 것입니다 : 과 같은 베타 제곱의 합 이 (즉 ) 의 가능한 최대 값을 초과하기 때문에 몇 가지 가 있어야 합니다 상관 관계.1.1301R21
또 한가지입니다 (크기) 최대 규모의 베타 버전이기 때문에 그 정사각형, 보고 받았던 초과 --far 의 - 우리가 있음을 체결 할 수있다 회귀 변수 중 일부는 음의 상관 관계를해야합니다. (실제로 는 후자의 광범위한 값을 포함하는 모든 샘플에서 연령, 체중 및 지방과 강한 음의 상관 관계가 있습니다.−0.830.69R20.20VO2max
회귀자가 두 개 뿐인 경우 회귀 분석기 상관 관계가 높고 베타 검사에서 에 대해 더 많은 것을 추론 할 수 있습니다. 이렇게하면 , 및 방법을 정확하게 스케치 할 수 있습니다. 위치해야합니다. 불행히도,이 6 가지 변수 문제의 추가 회귀 분석은 상황을 상당히 복잡하게 만듭니다. 변수 중 두 가지를 분석 할 때 다른 네 개의 회귀 변수 ( "공변량")를 "취득"또는 "제어"해야합니다. 이를 통해 , 및R2x1x2y^x1x2y알 수없는 양으로 (세 가지가 공변량과 어떻게 관련되어 있는지에 따라), 우리가 작업하는 벡터 의 실제 크기 에 대해서는 거의 알지 못합니다 .