선형 회귀 분석에서 표준화 된 계수를 사용하여 를 추정 할 수 있습니까?


9

여러 결과를 예측하기 위해 다중 회귀를 적용한 기사의 결과를 해석하려고합니다. 그러나 의 (표준화 B 계수로 정의 여기서, 종속 인 변수 및 은 예측 변수 임)보고 된 와 일치하지 않는 것으로보고되었습니다 .ββx1=Bx1SDx1SDyyx1R2

여기에 이미지 설명을 입력하십시오

불구 '는 S의 -0.83, -0.29이 -0.16이 -0.43, 0.25 및 -0.29는보고 만 0.20이다.βR2

또한, 3 가지 예측 변수 : 체중, BMI 및 지방 %는 다중 공 선형이며, 성별 내에서 r = 0.8-0.9 부근에서 상관 관계가 있습니다.

값이 이러한 와 관련이 있습니까 , 아니면 와 사이에 직접적인 관계가 없습니까?R2ββR2

또한, 다중 공선 예측 변수와 관련된 문제가 네 번째 예측 변수 (VO2max) 의 에 영향을 줄 수 있는데, 이는 앞서 언급 한 세 가지 변수와 r = 0.4 주위에 상관되어 있습니까?β


이 맥락에서 는 무엇입니까 ? 베타 계수 (표준 회귀)? 또는 다른 것? 그렇다면 표준 편차 측면에서 해석하는 것만으로는 말할 수 없습니다. 계수가 큰 효과를 의미한다는 사실은 높은 값을 의미하지 않습니다.βR2
Repmat

1
ß는 표준화 된 b 계수를 나타냅니다. 1 예측 변수의 경우 ß는 pearson 's r과 같습니다.이 값은 R- 제곱과 직접 관련이 있지만이 다변량의 경우 높은 ß가 높은 R- 제곱을 의미하지 않는 이유는 무엇입니까?
Sakari Jukarainen

2
아니요, 한 회귀 분석의 경우 는 Pearson의 상관 관계와 동일하지 않습니다. . 와 의 관계는 간단하지 않습니다. ββ=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
Richard Hardy

5
@RichardHardy 혼란이 사카 리가 를 표준화 된 회귀 계수 로 정의했다고 생각합니다 . 이변 량 선형 회귀 (회귀 계수 카리의 표기)이다 , 상관이며 표준 편차. 회귀 계수를 표준화하기 위해 계수를 표준 편차 로 나누고 표준 편차 곱 하면 상관 관계 만 남습니다. 그래서 사카 리가 옳습니다. βbrxysysxrsyx
Maarten Buis

나는 아직도 당신이 왜 이것을 잘못 생각하는지 알지 못합니까? 논문에 요약 통계가 있으면 숫자가 더해지는 지 간단히 확인할 수 있습니다. 당신은 그렇게하기 위해 공식을 제공했습니다. 단순히 효과가 무의미한 용어로 인해 모델이 y의 분산을 설명하는 데 잘 작동한다고 결론을 내릴 수는 없습니다.
Repmat

답변:


17

보통 최소 제곱 회귀기하학적 해석은 필요한 통찰력을 제공합니다.

우리가 알아야 할 대부분은 응답이 인 두 회귀 자 과 의 경우에 볼 수 있습니다 . 표준화 계수, 세 벡터가 (우리가 통일을 할 걸릴 수 있습니다) 공통의 길이로 표준화 될 때 또는 "베타는"발생한다. 따라서 및 는 평면 의 단위 벡터 이며, 단위 원에 위치하고 는 해당 평면을 포함 하는 3 차원 유클리드 공간 의 단위 벡터입니다 . 적합치 는 를 에 직교 (수직) 투영 합니다. 이기 때문에x1x2yx1x2E2yE3y^yE2R2단순히 의 제곱 길이입니다. 세 차원을 모두 시각화 할 필요조차 없습니다. 필요한 모든 정보를 해당 평면에 그릴 수 있습니다.y^

직교 회귀 기

가장 좋은 상황은 첫 번째 그림과 같이 회귀자가 직교하는 경우입니다.

그림 1-평면에서 회귀 자와 $ \ hat y $를 벡터로 표시

이 그림과 나머지 그림에서 나는 지속적으로 단위 디스크를 흰색으로, 회귀자를 검은 색 화살표로 그립니다. 은 항상 오른쪽을 직접 가리 킵니다. 두꺼운 붉은 화살표의 성분 묘사 에 및 이다 : 방향 및 . 의 길이는 그것이 위치한 회색 원의 반지름이지만 는 x1y^x1x2β1x1β2x2y^R2그 길이 제곱 이라는 것을 기억하십시오 .

피타고라스의 정리는 주장

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

피타고라스 정리는 여러 차원으로 유지되기 때문에이 추론은 여러 회귀 자에 일반화되어 첫 번째 결과를 산출합니다.

회귀자가 직교 인 경우 는 베타 제곱의 합과 같습니다.R2

즉각적인 결과는 단 하나의 회귀 분석기 (단 변량 회귀 분석)가있을 때 가 표준화 된 기울기의 제곱이라는 것입니다.R2

상관

음의 상관 회귀 분석기는 직각보다 큰 각도에서 만납니다.

음의 상관 회귀자를 보여주는 그림 2

이 이미지에서 베타 제곱의 합이 보다 엄청나게 큰 것을 알 수 있습니다. 이것은 코사인의 법칙을 사용하거나 정규 방정식의 행렬 솔루션을 사용하여 대수적으로 증명할 수 있습니다.R2

두 회귀자를 거의 평행하게 만들어서 원점 근처 ( 근처 )에 배치 할 수 있지만 및 방향으로 계속 큰 구성 요소를 갖습니다 . 따라서, 가 얼마나 작은 지에 대한 제한은 없다 .y^R20x1x2R2

그림

이 명백한 결과, 두 번째 일반성을 기념합시다 :

회귀 분석기가 서로 관련되어있을 때, 는 베타 제곱의 합보다 임의로 작을 수있다.R2

그러나 다음 그림에서 볼 수 있듯이 이것은 보편적 인 관계가 아닙니다.

음의 상관 회귀 분석을 보여 주지만 베타는 반대의 부호를 가지고있다.

이제 는 베타 제곱의 합을 엄격하게 초과합니다. 두 회귀자를 서로 가깝게 그리고 그 사이에 유지 함으로써, 가 가까울 지라도 베타가 에 근접하게 만들 수 있습니다 . 추가 분석을 위해서는 대수학이 필요할 수 있습니다.R2y^1/2R21

나는 양의 상관 회귀 자와 비슷한 예를 만들어 상상할 수있게하여 예각으로 만난다.

이러한 결론은 불완전하다는 점에 주목 하십시오. 베타의 제곱의 합에 비해 가 얼마나 적을 지에 대한 한계 가 있습니다. 특히 가능성을주의 깊게 검토하여 (두 회귀자가있는 회귀) 결론을 내릴 수 있습니다.R2

회귀 분석기가 양의 상관 관계가 있고 베타에 공통의 부호가 있거나, 회귀 분석기가 음의 상관 관계가 있고 베타가 다른 부호를 갖는 경우, 는 적어도 베타의 제곱의 합만큼 커야한다. R2


대수 결과

일반적으로 회귀 변수는 (열 벡터) 이고 응답은 입니다. 표준화 수단 (a) 각각은 벡터 과 직교 하며 (b) 단위 길이가 있습니다.x1,x2,,xpy(1,1,,1)

|xi|2=|y|2=1.

열 벡터 를 행렬 로 어셈블합니다 . 행렬 곱셈의 규칙은xin×pX

Σ=XX

의 상관 행렬입니다 . 베타는 정규 방정식으로 주어집니다.xi

β=(XX)1Xy=Σ1(Xy).

또한 정의에 따르면 적합도는

y^=Xβ=X(Σ1Xy).

제곱 길이는 정의에 따라 를 제공합니다.R2

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

기하 분석에서는 와 베타 제곱의 합과 관련된 불평등 을 찾은 것으로 나타났습니다.R2

i=1pβi2=ββ.

행렬 의 규범은 계수의 제곱의 합으로 기본적으로 제공됩니다 (기본적으로 행렬을 유클리드 공간에서 성분 의 벡터로 처리 ).L2Ap2

|A|22=i,jaij2=tr(AA)=tr(AA).

코시-슈바르츠 불평등

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

제곱 상관 계수를 초과 할 수 없기 때문에 단있다 그들 중 행렬 , 초과 할 수 . 따라서1p2p×pΣ|Σ|21×p2=p

R2pββ.

예를 들어, 모든 가 완벽하게 양의 상관 관계를 갖는 경우 불평등이 달성됩니다 .xi

크기에는 상한 이 있습니다. 회귀 자당 평균값 는 표준화 된 계수의 제곱합을 초과 할 수 없습니다.R2R2/p


결론

우리는 일반적으로 무엇을 결론 낼 수 있습니까? 분명히, 회귀 분석기 의 상관 관계 구조베타부호에 관한 정보 는 가능한 값을 묶 거나 정확하게 계산하기 위해 사용될 수있다 . 완전한 정보가 없다면 회귀자가 선형 적으로 독립적 일 때, 0이 아닌 단일 베타 는 가 0이 아니라는 것을 암시하며 가 0 이 아님을 암시 합니다.R2y^R2

우리가 문제의 결과에서 분명히 결론을 내릴 수있는 한 가지는 데이터가 서로 관련되어 있다는 것입니다 : 과 같은 베타 제곱의 합 이 (즉 ) 의 가능한 최대 값을 초과하기 때문에 몇 가지 가 있어야 합니다 상관 관계.1.1301R21

또 한가지입니다 (크기) 최대 규모의 베타 버전이기 때문에 그 정사각형, 보고 받았던 초과 --far 의 - 우리가 있음을 체결 할 수있다 회귀 변수 중 일부는 음의 상관 관계를해야합니다. (실제로 는 후자의 광범위한 값을 포함하는 모든 샘플에서 연령, 체중 및 지방과 강한 음의 상관 관계가 있습니다.0.830.69R20.20VO2max

회귀자가 두 개 뿐인 경우 회귀 분석기 상관 관계가 높고 베타 검사에서 에 대해 더 많은 것을 추론 할 수 있습니다. 이렇게하면 , 및 방법을 정확하게 스케치 할 수 있습니다. 위치해야합니다. 불행히도,이 6 가지 변수 문제의 추가 회귀 분석은 상황을 상당히 복잡하게 만듭니다. 변수 중 두 가지를 분석 할 때 다른 네 개의 회귀 변수 ( "공변량")를 "취득"또는 "제어"해야합니다. 이를 통해 , 및R2x1x2y^x1x2y알 수없는 양으로 (세 가지가 공변량과 어떻게 관련되어 있는지에 따라), 우리가 작업하는 벡터 의 실제 크기 에 대해서는 거의 알지 못합니다 .


비 직교 경우에, 당신은 프로젝트 이유, +1하지만 이해가 안 벡터 직교 예측기 축에 투영 점선이 다른 예측에 평행하게 이동하고 반대로. 이 작업은 성가 시게 들리지만 내가 무슨 뜻인지 알 것 같습니다. "투영"(두 개의 작은 빨간 벡터)은 큰 빨간 벡터 를 얻지 못합니다 . y^y^
amoeba

@amoeba 당신은 아주 옳습니다. 이 이미지를 만드는 데 너무 성급했습니다! 문제를 해결할 기회가 생길 때까지이 게시물을 (일시적으로) 삭제하겠습니다. 이것을 지적 해 주셔서 감사합니다.
whuber

@Amoeba 나는 그림을 수정하고 일치하도록 분석을 수정했습니다. 세부 사항이 크게 변경되었지만 결론은 동일하게 유지됩니다.
whuber

1
@amoeba 다시 당신은 맞습니다. 관심있는 독자를 잃을 위험이 있지만 이제는 기하학적 직관을 수량화해야한다는 느낌이 들었습니다. 나는 그 결론을 강화하고 약간의 대수학으로 그것을 정당화했습니다. (나는 대수가 정확
하다고 믿습니다

1
고마워요! 참고로, VO2max는 체중 및 BMI와 음의 상관 관계가 있습니다. 체중과 체중이 높을수록 체중이 적습니다. 상기 표에서 VO2max는 실제로 VO2max를 중량으로 나눈 값에 해당합니다 (VO2max를 신체 크기로 스케일링하는 나쁜 방법 임). 표에서 VO2max / weight는 성별을 제외한 다른 모든 예측 변수와 음의 상관 관계가 있으며, 이는 언급했듯이 높은 ß이지만 낮은 R- 제곱을 설명 할 수 있습니다.
Sakari Jukarainen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.