선형 다중 회귀 방정식에서 베타 가중치가 다른 모든 IV의 기여에 대한 각 개별 독립 변수의 기여를 반영하는 경우 회귀 방정식에서 DV를 예측하는 모든 IV가 공유하는 분산은 어디입니까?
예를 들어, 아래에 표시된 Venn 다이어그램 (및 CV의 'about'페이지 ( https://stats.stackexchange.com/about ) 에서 가져온 )이 3 IV 및 1 DV로 레이블이 지정된 경우 별표가있는 영역은 다중 회귀 방정식으로?
선형 다중 회귀 방정식에서 베타 가중치가 다른 모든 IV의 기여에 대한 각 개별 독립 변수의 기여를 반영하는 경우 회귀 방정식에서 DV를 예측하는 모든 IV가 공유하는 분산은 어디입니까?
예를 들어, 아래에 표시된 Venn 다이어그램 (및 CV의 'about'페이지 ( https://stats.stackexchange.com/about ) 에서 가져온 )이 3 IV 및 1 DV로 레이블이 지정된 경우 별표가있는 영역은 다중 회귀 방정식으로?
답변:
이 다이어그램이 무엇을 의미하는지 이해하려면 몇 가지 사항을 정의해야합니다. Venn 다이어그램은 4 가지 변수 사이에 겹치는 (또는 공유 된) 분산을 표시하고 , 및 대한 지식을 바탕으로 의 수준을 예측하려고한다고 가정합니다 . 즉, 의 불확실성 (즉, 분산)을 null 분산에서 잔차 분산 으로 줄일 수 있기를 원합니다 . 얼마나 잘 할 수 있습니까? 벤 다이어그램 이 당신에게 대답 하는 질문입니다 .
각 원은 점 집합을 나타내며, 따라서 분산 량을 나타냅니다. 대부분의 경우 의 차이에 관심이 있습니다.그러나 그림에는 예측 변수의 분산도 표시됩니다. 우리의 모습에 대해 주목해야 할 것이 몇 가지 있습니다. 먼저, 각 변수는 같은 양의 분산을 갖습니다. 모두 같은 크기입니다 (모두 벤 다이어그램을 문자 그대로 사용하는 것은 아니지만). 또한 같은 양의 중첩 등이 있습니다. 더 중요한 점은 예측 변수 사이에 상당한 중첩이 있다는 것입니다. 이것은 서로 관련되어 있음을 의미합니다. 이 상황은 2 차 (즉, 보관) 데이터, 관측 연구 또는 실제 예측 시나리오를 처리 할 때 매우 일반적입니다. 반면에이 실험이 설계된 실험이라면 아마도 설계 나 실행이 열악 할 수 있습니다. 이 예제를 조금 더 오래 지속하기 위해 예측 능력이 적당하다는 것을 알 수 있습니다. 변동성의 대부분 는 모든 변수가 사용 된 후에도 잔차 변동성으로 남아 있습니다 (다이어그램을 볼 때 ). 참고로 또 다른 점은 일단 즉, 와 모델에 입력되었습니다 을 차지 없음 에 변화의 .
이제 여러 예측 변수가있는 모형을 적합시킨 후 사람들은 종종 이러한 예측 변수 를 테스트 하여 반응 변수와 관련이 있는지 확인하려고합니다 (사람들이 생각하는 것만 큼 중요하지는 않지만). 우리의 문제는 이러한 예측 변수를 테스트 하려면 Sum of Squares를 분할 해야하며 예측 변수가 서로 연관되어 있기 때문에 둘 이상의 예측 변수에 기인 할 수있는 SS가 있다는 것 입니다. 실제로 별표가 표시된 영역에서 SS 는 세 예측 변수 중 하나에 기인 할 수 있습니다 . 이는 SS의 고유 한 파티션 이 없으므로 고유 한 테스트 가 없음을 의미합니다 . 이 문제를 처리하는 방법 은 연구원이 사용하는 SS 유형 과연구원에 의한 다른 판단 . 많은 소프트웨어 응용 프로그램이 기본적으로 유형 III SS를 반환하므로 많은 사람들 이 판단 요청을하지 않고 겹치는 영역에 포함 된 정보를 버립니다 . SS의 다른 유형 인 이러한 문제에 대해 설명하고 여기에서 자세히 설명 합니다 .
언급 한 바와 같이 질문은 구체적 으로이 모든 것이 베타 / 회귀 방정식 에서 나타나는 위치에 대해 묻습니다 . 대답은 그렇지 않다는 것입니다. 그것에 대한 일부 정보는 여기 내 대답에 포함되어 있습니다 (행 사이를 조금 읽어야하지만).
Peter Kennedy는 그의 책 과 JSE 기사 에서 회귀 에 대한 Ballentine / Venn 다이어그램에 대한 훌륭한 설명을 제공 합니다.
요점은 별표 영역 변화가 기울기 계수를 추정하고 테스트하기 위해서만 버려지는 것입니다. 이 변동은 예측 및 계산을 위해 다시 추가됩니다 .
나는 이것이 (매우) 데이트 스레드라는 것을 알고 있지만, 내 동료 중 한 명이 이번 주에 나에게 똑같은 질문을하고 그를 지적 할 수있는 웹에서 아무것도 찾지 못했기 때문에 나는 2 센트를 "후손을 위해"추가 할 것이라고 생각했다. 여기. 현재까지 제공된 답변이 OP의 질문에 답변한다고 확신하지 않습니다.
두 개의 독립 변수 만 포함하도록 문제를 단순화하려고합니다. 두 개 이상으로 확장하는 것은 매우 간단합니다. 다음 시나리오를 고려하십시오. 두 개의 독립 변수 (X1 및 X2), 종속 변수 (Y), 1000 개의 관측치, 두 개의 독립 변수는 서로 높은 상관 관계가 있고 (r = .99), 각 독립 변수는 종속 변수와 상관 관계가 있습니다. 변수 (r = .60). 일반성의 손실없이 모든 변수를 평균 0과 표준 편차 1로 표준화하여 각 회귀에서 절편 항이 0이되도록합니다.
X1에서 Y의 간단한 선형 회귀를 실행하면 r- 제곱이 .36이고 b1 값이 0.6입니다. 마찬가지로 X2에서 Y의 간단한 선형 회귀를 실행하면 r- 제곱이 .36이고 b1 값이 0.6입니다.
X1 및 X2에서 Y의 다중 회귀를 실행하면 .36보다 높은 비트의 r- 제곱이 생성되고 b1과 b2는 모두 0.3의 값을 갖습니다. 따라서 Y의 공유 변형은 b1과 b2 모두에서 동일하게 캡처됩니다.
나는 OP가 잘못된 (그러나 완전히 이해할 수있는) 가정을했다고 생각합니다. 즉, X1과 X2가 완벽하게 상관되어 가까워 질수록 다중 회귀 방정식의 b 값이 ZERO에 가까워지고 가깝습니다. 그렇지 않습니다. 실제로, X1과 X2가 완벽하게 상관 관계에 가까워 질수록 다중 회귀 분석에서 b- 값이 b- 값의 HALF에 더 가깝고 더 가까워집니다. 그러나 X1과 X2가 완벽하게 상관되어 가까워 질수록 b1과 b2의 STANDARD ERROR는 무한대에 가까워지면서 t- 값이 0으로 수렴합니다. 따라서 t- 값은 0에 수렴합니다 (즉, X1과 Y 또는 X2와 Y 사이에 고유 한 선형 관계가 없음).
따라서 OP의 질문에 대한 대답은 X1과 X2 사이의 상관 관계가 단일성에 가까워 질 때 독립 경사 변수가 종속 변수에 대한 고유 한 설명을 제공하지 않더라도 부분 경사 계수의 각 값이 Y 값 예측에 똑같이 기여한다는 것입니다 변하기 쉬운.
이를 경험적으로 확인하려면 위에서 설명한 특성을 가진 조작 된 데이터 세트 (... Corr2Data.sas ...라는 SAS 매크로 사용)를 생성하십시오. b 값, 표준 오류 및 t- 값을 확인하십시오. 여기에 설명 된 것과 정확히 일치 함을 알 수 있습니다.
HTH // 필