회귀 계수의 공분산에 대한 해석은 무엇입니까?


13

R의 lm 함수는 회귀 계수의 추정 된 공분산을 인쇄 할 수 있습니다. 이 정보는 우리에게 무엇을 제공합니까? 이제 모델을 더 잘 해석하거나 모델에있을 수있는 문제를 진단 할 수 있습니까?


1
다른 모든 공분산과 동일한 해석-선형 공분산? 주된 용도는 선택된 대비 대비의 분산을 계산하는 것입니다 (예 : 대비 대비).
kjetil b halvorsen 21:48에

답변:


20

공분산 행렬의 가장 기본적인 사용은 회귀 추정의 표준 오차를 얻는 것입니다. 연구원이 개별 회귀 모수 자체의 표준 오차에만 관심이 있다면, 대각선의 제곱근을 취하여 개별 표준 오차를 얻을 수 있습니다.

그러나 회귀 모수의 선형 조합에 관심이있는 경우가 종종 있습니다. 예를 들어 특정 그룹에 대한 표시기 변수가있는 경우 그룹 평균에 관심이있을 수 있습니다.

β0+βgrp .

그런 다음 해당 그룹의 추정 평균에 대한 표준 오차를 찾으려면

XSX ,

여기서 는 대비의 벡터이고 는 공분산 행렬입니다. 우리의 경우에, 우리가 단지 가산 공변량 "GRP"를 가지고 있다면, ( 절편에 대한 군에 속하는 경우).XSX=(1,1)11

또한 공분산 행렬 (또는 공분산 행렬에서 고유하게 식별되지만 그 반대의 상관 관계는 아닌 상관 관계 행렬)은 특정 모델 진단에 매우 유용 할 수 있습니다. 두 변수가 서로 밀접하게 관련되어있는 경우이를 고려하는 한 가지 방법은 모델이 어떤 변수가 효과를 담당하는지 파악하는 데 어려움을 겪고 있다는 것입니다 (매우 밀접하게 관련되어 있기 때문). 이는 예측 모델에 사용할 공변량의 하위 집합을 선택하는 등 다양한 경우에 유용 할 수 있습니다. 두 변수가 서로 밀접하게 관련되어 있으면 예측 모델에서 두 변수 중 하나만 사용할 수 있습니다.


설명 주셔서 감사합니다. 마지막 단락에서는 독립 변수가 매우 공선 일 때 발생할 수있는 문제에 대해 설명합니다. 보다 실제 의 공분산 / 상관을 보는 것이 더 쉬운 것 같습니다 . 수식에 역이 있습니다. Xβ
Var(β^)=E(ε^2)(XX)1
mss

8

회귀 계수에는 두 가지 "종류"가 있습니다.

  1. 데이터의 기본 데이터 생성 프로세스를 설명하는 "참"회귀 계수 (일반적으로 로 표시 ). 이들은 고정 숫자 또는 "매개 변수"입니다. 예를 들어 빛의 속도 는 접근 가능한 우주의 모든 곳에서 항상 동일하다고 가정합니다.βc
  2. 데이터 샘플에서 계산 된 추정 회귀 계수 (일반적으로 또는 로 표시 ). 표본은 랜덤 변수의 모음이므로 추정 된 회귀 계수도 랜덤 변수입니다. 예는 실험에서 얻은 대한 추정치입니다 .bβ^c

공분산이 무엇을 의미하는지 생각해보십시오. 두 개의 임의 변수 와 취하십시오 . 경우높은 절대 값 를 그릴 때마다 같은 방향으로 큰 절대 값 를 그릴 것으로 예상 할 수 있습니다 . 여기서 "높음" 은 주석에서 지적한 바와 같이 및 의 변동량에 상대적 입니다.XY|Cov(X,Y)|XYXY

두 회귀 계수의 (예상) 공분산은의 공분산이다 추정치 , . 추정 계수 과 사이의 공분산 이 높으면 이 높은 모든 샘플에서 도 높을 것으로 예상 할 수 있습니다 . 보다 베이지안적인 의미에서 에는 에 대한 정보가 포함 됩니다.b 1 b 2 b 1 b 2 b 1 b 2bb1b2b1b2b1b2

"높음"은 상대적입니다. 여기서 " 이 높음"은 " 이 표준 오류에 비해 높고"공분산이 "높음"이면 "표준 오류의 곱에 비해 높음"을 의미합니다. 이러한 해석 적 딸꾹질을 부드럽게하는 한 가지 방법은 각 회귀 입력을 표준 편차 (또는 경우에 따라 2 개의 표준 편차)로 나누어서 각 회귀 입력을 표준화하는 것입니다.b 1b1b1

이 사이트에 한 사용자가 설명 "퍼지의 비트,"그러나 나는 전적으로 동의하지 않습니다. 우선,이 해석을 사용하여 베이지안 회귀에서 유익한 사전 정보를 얻을 수 있습니다.Cov(b1,b2)

이것이 실제로 사용되는 것에 관해서는 Cliff AB의 대답이 좋은 요약입니다.


이것은 좋지만 공분산의 해석이 상관 관계인 것처럼 약간 귀찮게합니다. 나는 당신이 그 차이를 알고 있다는 것을 알고 있지만 명확하게 나오지 않습니다. 또한 "퍼지 비트"의견에 이의를 제기 한 것도 기쁘다. 왜냐하면 오해의 소지가있는 평가 였기 때문이다. 실제로, 대한 와 의 공분산은 @Cliff AB가 나타내는 것처럼 이러한 추정치가 상호 연관되는 방법에 대한 기본적이고 유용한 정보를 제공합니다. b j i jbibjij
whuber

1
@ whuber 덕분에 실제로 한 지점에서 "상관 관계"를 작성했습니다. 전화기에서 내릴 때 정리하겠습니다
shadowtalker

이 스레드로 잠시 되돌릴 수 없으므로 편집을 위해 +1을 미리 수행하십시오!
whuber

내 설명에서 같은 실수를했다!
Cliff AB

@ whuber 이제 실제로 공분산에 대한 내 자신의 이해를 추측하는 것이 두 번째입니다. 내 문제는 비늘이 다를 수 있다는 사실을 강조하지 않았거나 다른 것을 놓치고 있습니까? 나는 당신의 "상자"설명을
보았는데
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.