진행할 수있는 작업을 이해하려면 설명 된 방식으로 작동하는 데이터를 생성하고 분석하는 것이 좋습니다.
간단히하기 위해 여섯 번째 독립 변수를 잊어 봅시다. 따라서, 문제는 하나의 종속 변수의 회귀 설명 다섯 개 독립 변수에 대하여 , X 1 , X 2 , X 3 , X 4 , X 5 ,되는와이엑스1, x2, x삼, x4, x5
각 일반 회귀 는 0.01 ~ 0.001 미만의 수준에서 유의 합니다.와이∼ x나는0.010.001
다중 회귀 는 x 1 과 x 2에 대해서만 유의 한 계수를 산출 합니다.와이∼ x1+ ⋯ + x5엑스1엑스2
모든 분산 인플레이션 팩터 (VIF)는 낮으며, 이는 설계 매트릭스에서 양호한 컨디셔닝을 나타냅니다 (즉 , x i 간의 공선 성이 부족함 ).엑스나는
이것을 다음과 같이하자 :
x 1 및 x 2에 대해 정규 분포 값을 생성 합니다. ( 나중에 n 을 선택합니다 .)엔엑스1엑스2엔
하자 여기서 ε는 평균 독립적 통상 에러가 0 . ε에 적합한 표준 편차를 찾으려면 약간의 시행 착오가 필요합니다 . 1 / 100 은 잘 작동합니다 (그리고 다소 극적입니다 : y 는 x 1 및 x 2와 개별적으로 상관 관계가 있지만 x 는 x 1 및 x 2 와 매우 관련이 있습니다).와이= x1+ x2+ εε0ε1 / 100와이엑스1엑스2엑스1엑스2
하자 = X 1 / 5 + δ , J = 3 , 4 , 5 , δ는 독립적 정상적 오차이다. 이 브랜드 X 3 , X 4 , X 5 만 다소 에 따라 X 1 . 그러나 x 1 과 y 사이의 밀접한 상관 관계를 통해 y 와 이러한 x j 사이 의 작은 상관 관계를 유도합니다 .엑스제이엑스1/ 5+δj = 3 , 4 , 5δ엑스삼, x4, x5엑스1엑스1와이와이엑스제이
문지름은 다음과 같습니다. 만약 우리가 충분히 크게하면, y 가 처음 두 변수에 의해서만 거의 "설명"되어 있지만 ,이 작은 상관 관계는 중요한 계수를 초래할 것 입니다.엔와이
보고 된 p- 값을 재현하기 위해 이 잘 작동 한다는 것을 알았습니다 . 다음은 6 가지 변수 모두의 산점도 행렬입니다.n = 500
우측 열 (또는 하단 행)가있다 검사하여 볼 것을 함께 좋은 (포지티브)의 상관 갖는 X 1 및 X 2 다른 변수 명백하지만 작은 상관 관계. 이 행렬의 나머지 부분을 살펴보면 독립 변수 x 1 , … , x 5 가 서로 관련이없는 것으로 나타납니다 (임의 δ와이엑스1엑스2엑스1, … , x5δ우리가 알고있는 작은 의존성을 감추십시오.) 예외적이거나 지나치게 높은 레버리지가있는 예외적 인 데이터는 없습니다. 히스토그램은 6 가지 변수가 대략 정규 분포되어 있음을 보여줍니다. 이러한 데이터는 원하는대로 평범하고 "일반 바닐라"입니다.
의 회귀 대 X 1 및 X 2 는, P 값은 본질적으로 개별 회귀 0으로되어 Y 대 X 3 다음 Y 대 X 4 , 및 Y 에 대한 X (5) , 상기 p의 값은 0.0024, 0.0083이다 , 및 0.00064 : 즉 "매우 중요합니다". 그러나 완전 다중 회귀 분석에서 해당 p- 값은 각각 .46, .36 및 .52로 증가합니다. 그 이유는 일단 y 가 x 1 과 x 에 대해 회귀 되면와이엑스1엑스2와이엑스삼와이엑스4와이엑스5와이엑스1 , "설명"하도록 남겨진 유일한 것은 잔차에서 작은 양의 오차이며, 이는 ε 에근사 할 것이며,이 오차는 나머지 x i 와 거의 완전히 관련이 없다. ( "거의"올바른 : 잔차가 값에서 일부 계산되었다는 사실로부터 유도 정말로 작은 관계가 X 1 및 X 2 및이 X 나 , 나는 = 3 , 4 , 5는 일부 약한합니까 관계 X 1 및 X 2는 우리가 본대로.이 잔류 관계는하지만, 실질적으로 발견 할 수 있습니다.)엑스2ε엑스나는엑스1엑스2엑스나는i = 3 , 4 , 5엑스1엑스2
디자인 매트릭스의 컨디셔닝 수는 2.17에 불과합니다. 이는 매우 낮으며, 높은 다중 공선 성을 나타내지 않습니다. (공선 성이 완벽하지 않다는 것은 조건 수 1에 반영 될 것이지만 실제로 이것은 인공 데이터와 설계된 실험에서만 볼 수 있습니다. 1-6 범위 (또는 변수가 많을수록 더 높음)의 조건 수는 눈에 띄지 않습니다.) 이것으로 시뮬레이션이 완료됩니다. 문제의 모든 측면을 성공적으로 재현했습니다.
이 분석이 제공하는 중요한 통찰력은 다음과 같습니다.
p- 값은 공선성에 대해 직접 아무 것도 알려주지 않습니다. 데이터 양에 크게 의존합니다.
다중 회귀 분석에서 p- 값과 관련 회귀 분석에서 p- 값 (독립 변수의 하위 집합 포함) 간의 관계는 복잡하고 일반적으로 예측할 수 없습니다.
결과적으로, 다른 사람들이 주장했듯이 p- 값은 모델 선택을위한 유일한 가이드 (또는 주요 가이드)가되어서는 안됩니다.
편집하다
이러한 현상을 나타 내기 위해 이 500 만큼 클 필요는 없습니다 . 엔500 질문에 대한 추가 정보에 의해 고무, 다음과 유사한 방식으로 구성되는 데이터 세트이고 (이 경우에서 의 X J = 0.4 X 1 + 0.4 X 2 + δ 용 J = 3 , 4 , 5 ). 이 사이에 0.73 0.38의 상관 관계를 생성 X 1 - 2 및 X 3 - 5n = 24엑스제이= 0.4 x1+ 0.4 x2+ δj = 3 , 4 , 5엑스(1) - 2엑스3 ~ 5. 설계 행렬의 조건 수는 9.05입니다. 조금 높지만 끔찍하지는 않습니다. (어떤 규칙은 10까지의 조건 번호는 괜찮다고 말합니다.) 에 대한 개별 회귀의 p- 값 은 0.002, 0.015 및 0.008입니다. 따라서 일부 다중 공선 성이 관련되어 있지만 그 정도가 크지 않아서 변경할 수는 없습니다. 기본 통찰력은 동일하게 유지됩니다엑스삼, x4, x5: 중요성과 다중 공선 성은 서로 다릅니다. 그들 사이에는 가벼운 수학적 제약이 있습니다; 단일 변수의 포함 또는 제외는 심각한 다중 공선 성이 문제가되지 않더라도 모든 p- 값에 심대한 영향을 미칠 수 있습니다.
x1 x2 x3 x4 x5 y
-1.78256 -0.334959 -1.22672 -1.11643 0.233048 -2.12772
0.796957 -0.282075 1.11182 0.773499 0.954179 0.511363
0.956733 0.925203 1.65832 0.25006 -0.273526 1.89336
0.346049 0.0111112 1.57815 0.767076 1.48114 0.365872
-0.73198 -1.56574 -1.06783 -0.914841 -1.68338 -2.30272
0.221718 -0.175337 -0.0922871 1.25869 -1.05304 0.0268453
1.71033 0.0487565 -0.435238 -0.239226 1.08944 1.76248
0.936259 1.00507 1.56755 0.715845 1.50658 1.93177
-0.664651 0.531793 -0.150516 -0.577719 2.57178 -0.121927
-0.0847412 -1.14022 0.577469 0.694189 -1.02427 -1.2199
-1.30773 1.40016 -1.5949 0.506035 0.539175 0.0955259
-0.55336 1.93245 1.34462 1.15979 2.25317 1.38259
1.6934 0.192212 0.965777 0.283766 3.63855 1.86975
-0.715726 0.259011 -0.674307 0.864498 0.504759 -0.478025
-0.800315 -0.655506 0.0899015 -2.19869 -0.941662 -1.46332
-0.169604 -1.08992 -1.80457 -0.350718 0.818985 -1.2727
0.365721 1.10428 0.33128 -0.0163167 0.295945 1.48115
0.215779 2.233 0.33428 1.07424 0.815481 2.4511
1.07042 0.0490205 -0.195314 0.101451 -0.721812 1.11711
-0.478905 -0.438893 -1.54429 0.798461 -0.774219 -0.90456
1.2487 1.03267 0.958559 1.26925 1.31709 2.26846
-0.124634 -0.616711 0.334179 0.404281 0.531215 -0.747697
-1.82317 1.11467 0.407822 -0.937689 -1.90806 -0.723693
-1.34046 1.16957 0.271146 1.71505 0.910682 -0.176185