선형 다중 회귀 방정식에서 모든 IV 사이의 공유 분산은 어디에 있습니까?

선형 다중 회귀 방정식에서 베타 가중치가 다른 모든 IV의 기여에 대한 각 개별 독립 변수의 기여를 반영하는 경우 회귀 방정식에서 DV를 예측하는 모든 IV가 공유하는 분산은 어디입니까?

예를 들어, 아래에 표시된 Venn 다이어그램 (및 CV의 'about'페이지 ( https://stats.stackexchange.com/about ) 에서 가져온 )이 3 IV 및 1 DV로 레이블이 지정된 경우 별표가있는 영역은 다중 회귀 방정식으로?

여기에 이미지 설명을 입력하십시오

multiple-regression sums-of-squares

— 조엘 W.
소스

여기서 공감대가 필요하지 않습니다. 이 질문은 근본적인 수준에서 다중 회귀 분석에서 일어나고있는 일에 관한 것이며, 결코 논의되지 않을 MR에 대해 설명 할 수있는 기회를 제공한다고 생각합니다.

— gung-복직 모니카

답변:

이 다이어그램이 무엇을 의미하는지 이해하려면 몇 가지 사항을 정의해야합니다. Venn 다이어그램은 4 가지 변수 사이에 겹치는 (또는 공유 된) 분산을 표시하고 , 및 대한 지식을 바탕으로 의 수준을 예측하려고한다고 가정합니다 . 즉, 의 불확실성 (즉, 분산)을 null 분산에서 잔차 분산 으로 줄일 수 있기를 원합니다 . 얼마나 잘 할 수 있습니까? 벤 다이어그램 이 당신에게 대답 하는 질문입니다 . $Wiki$ $Digg$ $Forum$ $Blog$ $Wiki$

각 원은 점 집합을 나타내며, 따라서 분산 량을 나타냅니다. 대부분의 경우 의 차이에 관심이 있습니다. $Wiki$ 그러나 그림에는 예측 변수의 분산도 표시됩니다. 우리의 모습에 대해 주목해야 할 것이 몇 가지 있습니다. 먼저, 각 변수는 같은 양의 분산을 갖습니다. 모두 같은 크기입니다 (모두 벤 다이어그램을 문자 그대로 사용하는 것은 아니지만). 또한 같은 양의 중첩 등이 있습니다. 더 중요한 점은 예측 변수 사이에 상당한 중첩이 있다는 것입니다. 이것은 서로 관련되어 있음을 의미합니다. 이 상황은 2 차 (즉, 보관) 데이터, 관측 연구 또는 실제 예측 시나리오를 처리 할 때 매우 일반적입니다. 반면에이 실험이 설계된 실험이라면 아마도 설계 나 실행이 열악 할 수 있습니다. 이 예제를 조금 더 오래 지속하기 위해 예측 능력이 적당하다는 것을 알 수 있습니다. 변동성의 대부분 $Wiki$ 는 모든 변수가 사용 된 후에도 잔차 변동성으로 남아 있습니다 (다이어그램을 볼 때 ). 참고로 또 다른 점은 일단 즉, 와 모델에 입력되었습니다 을 차지 없음 에 변화의 . $R^2\approx.35$ $Digg$ $Blog$ $Forum$ $Wiki$

이제 여러 예측 변수가있는 모형을 적합시킨 후 사람들은 종종 이러한 예측 변수 를 테스트 하여 반응 변수와 관련이 있는지 확인하려고합니다 (사람들이 생각하는 것만 큼 중요하지는 않지만). 우리의 문제는 이러한 예측 변수를 테스트 하려면 Sum of Squares를 분할 해야하며 예측 변수가 서로 연관되어 있기 때문에 둘 이상의 예측 변수에 기인 할 수있는 SS가 있다는 것 입니다. 실제로 별표가 표시된 영역에서 SS 는 세 예측 변수 중 하나에 기인 할 수 있습니다 . 이는 SS의 고유 한 파티션 이 없으므로 고유 한 테스트 가 없음을 의미합니다 . 이 문제를 처리하는 방법 은 연구원이 사용하는 SS 유형 과연구원에 의한 다른 판단 . 많은 소프트웨어 응용 프로그램이 기본적으로 유형 III SS를 반환하므로 많은 사람들 이 판단 요청을하지 않고 겹치는 영역에 포함 된 정보를 버립니다 . SS의 다른 유형 인 이러한 문제에 대해 설명하고 여기에서 자세히 설명 합니다 .

언급 한 바와 같이 질문은 구체적 으로이 모든 것이 베타 / 회귀 방정식 에서 나타나는 위치에 대해 묻습니다 . 대답은 그렇지 않다는 것입니다. 그것에 대한 일부 정보는 여기 내 대답에 포함되어 있습니다 (행 사이를 조금 읽어야하지만).

— gung-복직 모니카
소스

안녕하세요, 게시 해 주셔서 감사합니다. 그것은 매우 흥미롭고 일부 지역에서 눈을 뜨고 있습니다. 그러나 귀하가 연결 한 게시물의 행을 읽는 데 문제가 있습니다. 선형 다중 회귀 방정식에서 베타 가중치가 다른 모든 IV의 기여도 이상으로 각 개별 독립 변수의 기여를 반영하는 경우 회귀 방정식에서 모든 IV가 공유하는 분산입니다. DV를 예측합니까?

— Joel W.

그래,보기가 어려울거야. 요점은 테스트를 위해 SS를 분할하는 방법과 베타를 추정하는 문제 사이에 근본적인 차이가 있다는 것입니다. 도 1은 어느 예측 자에게 SS를 부여하는 것에 관한 것이고; 2는 베타에 대한 최적의 값을 선택합니다. 전자는 후자가 아니라 중첩이 나타납니다. 에 대한 를 회귀하고 잔존물을 저장 한 다음 에서 잔재물을 예측하고 resids-2 등을 저장 한 경우 (BTW가 부적절 함, BTW) 베타가 크게 변동하는 것을 볼 수 있습니다. 그러나 Mult Reg는 모든 베타를 동시에 추정 하므로 표시되지 않습니다.

W i k i

$Wiki$

D i g g

$Digg$

F o r u m

$Forum$

— gung-모니 티 복원

"후자가 아닌 전자에 중첩이 나타나는 경우"회귀 방정식이 어떻게 분산을 반영 할 수 있습니까? 다른 모든 IV의 효과가 통계적으로 제거 될 때 베타가 각 IV의 기여를 나타내는 경우 회귀 공식의 어느 부분이 제거 된 공유 분산의 예측력을 반영합니까? 또는 중첩이 베타에 반영되지 않은 경우 IV 중 하나를 1 씩 증가 시키면 회귀 방정식은 어떻게 예측 된 Y에 어떤 일이 발생하는지 보여줄 수 있습니까? 세 번째 질문 : 벤 다이어그램의 기본 데이터에 대한 MR 분석에서 포럼 베타 = 0입니까?

— Joel W.

겹치는 부분은 베타 테스트 가 아니라 테스트 중 입니다. 다른 방법을 잘 모르겠습니다. 각 베타는 공변량의 1 단위 변화에 대한 반응 변수에 대한 영향을 나타내며 그 밖의 모든 것은 일정하게 유지됩니다 . 다른 공변량이 모델에서 제거되면 주어진 베타는 거의 동일하지 않을 것 입니다. 벤 다이어그램이 실제 데이터 생성 프로세스를 정확하게 반영한다면, 대한 실제 값 이지만 실증 추정치는 기본적으로 실제로 정확히 0이 아닙니다.

β_{F} = 0

$\beta_{F}=0$

— gung-복직 모니카

@ MarkWhite, 학생의 대답은 대부분 괜찮습니다. X1과 X2가 완벽하게 상관되었을 때 베타가 절반이라는 진술은 정확하지 않습니다. r = 1 인 경우 모델을 식별 할 수 없습니다 (cf, here ). r이 1에 가까워짐에 따라 추정 베타는 샘플 데이터의 관계에 따라 달라지며 샘플마다 크게 다를 수 있습니다.

— gung-Monica Monica 복원

Peter Kennedy는 그의 책 과 JSE 기사 에서 회귀 에 대한 Ballentine / Venn 다이어그램에 대한 훌륭한 설명을 제공 합니다.

요점은 별표 영역 변화가 기울기 계수를 추정하고 테스트하기 위해서만 버려지는 것입니다. 이 변동은 예측 및 계산을 위해 다시 추가됩니다 . $R^2$

— 디미트리 V. 마스터 로프
소스

+1, "추정 용" 과 "기울기 계수"를 테스트하기 위해 에 포함 된 점이 좋습니다.

R^{2}

$R^2$

— gung-복직 모니카

과연.

— Dimitriy V. Masterov

별표 영역이 예측 y를 계산하는 데 사용됩니까? 그렇다면 예측 공식에서 별표 영역이 예측 된 y에 기여하는 위치는 어디입니까? 다르게 말하면, 예측 공식에서 어떤 용어가 별표 영역을 반영합니까?

— Joel W.

나는 이것이 (매우) 데이트 스레드라는 것을 알고 있지만, 내 동료 중 한 명이 이번 주에 나에게 똑같은 질문을하고 그를 지적 할 수있는 웹에서 아무것도 찾지 못했기 때문에 나는 2 센트를 "후손을 위해"추가 할 것이라고 생각했다. 여기. 현재까지 제공된 답변이 OP의 질문에 답변한다고 확신하지 않습니다.

두 개의 독립 변수 만 포함하도록 문제를 단순화하려고합니다. 두 개 이상으로 확장하는 것은 매우 간단합니다. 다음 시나리오를 고려하십시오. 두 개의 독립 변수 (X1 및 X2), 종속 변수 (Y), 1000 개의 관측치, 두 개의 독립 변수는 서로 높은 상관 관계가 있고 (r = .99), 각 독립 변수는 종속 변수와 상관 관계가 있습니다. 변수 (r = .60). 일반성의 손실없이 모든 변수를 평균 0과 표준 편차 1로 표준화하여 각 회귀에서 절편 항이 0이되도록합니다.

X1에서 Y의 간단한 선형 회귀를 실행하면 r- 제곱이 .36이고 b1 값이 0.6입니다. 마찬가지로 X2에서 Y의 간단한 선형 회귀를 실행하면 r- 제곱이 .36이고 b1 값이 0.6입니다.

X1 및 X2에서 Y의 다중 회귀를 실행하면 .36보다 높은 비트의 r- 제곱이 생성되고 b1과 b2는 모두 0.3의 값을 갖습니다. 따라서 Y의 공유 변형은 b1과 b2 모두에서 동일하게 캡처됩니다.

나는 OP가 잘못된 (그러나 완전히 이해할 수있는) 가정을했다고 생각합니다. 즉, X1과 X2가 완벽하게 상관되어 가까워 질수록 다중 회귀 방정식의 b 값이 ZERO에 가까워지고 가깝습니다. 그렇지 않습니다. 실제로, X1과 X2가 완벽하게 상관 관계에 가까워 질수록 다중 회귀 분석에서 b- 값이 b- 값의 HALF에 더 가깝고 더 가까워집니다. 그러나 X1과 X2가 완벽하게 상관되어 가까워 질수록 b1과 b2의 STANDARD ERROR는 무한대에 가까워지면서 t- 값이 0으로 수렴합니다. 따라서 t- 값은 0에 수렴합니다 (즉, X1과 Y 또는 X2와 Y 사이에 고유 한 선형 관계가 없음).

따라서 OP의 질문에 대한 대답은 X1과 X2 사이의 상관 관계가 단일성에 가까워 질 때 독립 경사 변수가 종속 변수에 대한 고유 한 설명을 제공하지 않더라도 부분 경사 계수의 각 값이 Y 값 예측에 똑같이 기여한다는 것입니다 변하기 쉬운.

이를 경험적으로 확인하려면 위에서 설명한 특성을 가진 조작 된 데이터 세트 (... Corr2Data.sas ...라는 SAS 매크로 사용)를 생성하십시오. b 값, 표준 오류 및 t- 값을 확인하십시오. 여기에 설명 된 것과 정확히 일치 함을 알 수 있습니다.

HTH // 필

— 학생
소스

이것은 환상적인 설명입니다. 감사합니다. R에서 다른 상황을 시뮬레이션하려고 시도했는데 n이 너무 크거나 출력 (Y)와 공유 구성 요소 (X1과 X2)의 상관 관계가 있으면 공유 변동성을 제거 할 수 없다는 결론에 도달했습니다. )이 너무 높습니다. 그러나 왜 t- 값이 X1과 X2의 독특한 기여가 아닌 것을 반영 하는가? 회귀 t- 값이 예측 변수의 고유 한 기여를 반영하는 경우 공유 variabiltiy가 t- 값에 전혀 영향을 미치지는 않지만 우리는 그렇지 않습니다. 왜 그런 겁니까?

— Galit