개별 회귀는 중요하지만 VIF는 낮을 때의 다중 공선 성


13

를 예측하는 데 사용하는 6 개의 변수 ( )가 있습니다. 데이터 분석을 수행 할 때 먼저 다중 선형 회귀 분석을 시도했습니다. 이로부터 두 변수 만이 중요했다. 그러나 각 변수를 개별적으로 와 비교하는 선형 회귀 분석을 실행했을 때 하나를 제외한 모든 변수 가 유의미했습니다 ( 는 0.01 미만에서 0.001 미만). 이것은 다중 공선 성 때문인 것으로 제안되었습니다. y y px1...x6yyp

이것에 대한 나의 초기 연구는 VIF 를 사용하여 다중 공선 성을 검사 할 것을 제안 합니다. R에서 적절한 패키지를 다운로드하여 최종 VIF가 3.35, 3.59, 2.64, 2.24 및 5.56이되었습니다. 온라인의 다양한 출처에 따르면 VIF와의 다중 공선성에 대해 걱정해야 할 점은 4 또는 5입니다.

이제 이것이 내 데이터의 의미에 대해 혼란스러워합니다. 다중 공선성에 문제가 있습니까? 그렇다면 어떻게 진행해야합니까? (더 많은 데이터를 수집 할 수 없으며 변수는 분명히 관련이없는 모델의 일부입니다.)이 문제가 없으면 데이터에서 무엇을 취해야합니까? 특히 이러한 변수가 매우 중요하다는 사실 개별적으로, 그러나 결합 될 때 전혀 중요하지 않습니다.

편집 : 데이터 세트와 관련하여 몇 가지 질문이 있었으므로 확장하고 싶습니다 ...

이 특별한 경우에, 우리는 특정 사회적 신호 (제스처, 시선 등)가 다른 신호를 생성하는 사람의 가능성에 어떤 영향을 미치는지 이해하려고합니다. 모델에 중요한 속성이 모두 포함되기를 원하므로 중복 된 것으로 보이는 일부를 제거하는 것이 불편합니다.

현재 이것에 대한 가설은 없습니다. 그보다는 문제는 의심의 여지가 없으며 어떤 속성이 중요한지 더 잘 이해하려고합니다. 내가 알 수있는 한, 이러한 속성은 서로 독립적이어야합니다 (시선과 제스처가 같거나 다른 것의 하위 집합이라고 말할 수는 없습니다). 다른 연구자들이보고있는 것을 이해하기를 원하기 때문에 모든 것에 대해 p 값을보고 할 수 있다면 좋을 것입니다.

편집 2 : 아래 어딘가에 왔으므로 내 은 24입니다.n


당신이 가정 @ rolando2 모델의 의도 된 목적에 알 수 있듯이 다중 공선 성을 가지고, 당신은 확장 할 수 있습니다? 모든 예측 변수가 다른 조사자에게 중요하거나 (이 경우 각각의 중요도 수준을보고하려는 경우) 한두 가지만 버릴 수 있습니까?

@jlovegren 위의 정보를 추가했습니다. 추가 정보가 필요하면 알려주십시오.
cryptic_star

설명 변수는 연속 척도로 측정됩니까? 이 경우 너무 어렵지 않은 잔존 방법이 있습니다. 그들이 범주 형 인 경우, 나는 모른다. 그러나 나는 다른 누군가가 (나는 이 사이트 에서 비슷한 질문했다) 희망 한다.

@jlovegren 6 개의 변수 중 5 개가 카운트입니다.
cryptic_star 1

한 가지 더, 확실하게. 카운트에 명확한 상한이 있거나 자주 달성 되는가, 또는 카운트의 최대 값이 원칙적으로 제한이없는 경우?

답변:


18

진행할 수있는 작업을 이해하려면 설명 된 방식으로 작동하는 데이터를 생성하고 분석하는 것이 좋습니다.

간단히하기 위해 여섯 번째 독립 변수를 잊어 봅시다. 따라서, 문제는 하나의 종속 변수의 회귀 설명 다섯 개 독립 변수에 대하여 , X 1 , X 2 , X 3 , X 4 , X 5 ,되는yx1,x2,x3,x4,x5

  • 각 일반 회귀 0.01 ~ 0.001 미만의 수준에서 유의 합니다.yxi0.010.001

  • 다중 회귀 x 1x 2에 대해서만 유의 한 계수를 산출 합니다.yx1++x5x1x2

  • 모든 분산 인플레이션 팩터 (VIF)는 낮으며, 이는 설계 매트릭스에서 양호한 컨디셔닝을 나타냅니다 (즉 , x i 간의 공선 성이 부족함 ).xi

이것을 다음과 같이하자 :

  1. x 1x 2에 대해 정규 분포 값을 생성 합니다. ( 나중에 n 을 선택합니다 .)nx1x2n

  2. 하자 여기서 ε는 평균 독립적 통상 에러가 0 . ε에 적합한 표준 편차를 찾으려면 약간의 시행 착오가 필요합니다 . 1 / 100 은 잘 작동합니다 (그리고 다소 극적입니다 : yx 1x 2와 개별적으로 상관 관계가 있지만 xx 1x 2매우 관련이 있습니다).y=x1+x2+εε0ε1/100yx1x2x1x2

  3. 하자 = X 1 / 5 + δ , J = 3 , 4 , 5 , δ는 독립적 정상적 오차이다. 이 브랜드 X 3 , X 4 , X 5다소 에 따라 X 1 . 그러나 x 1y 사이의 밀접한 상관 관계를 통해 y 와 이러한 x j 사이 의 작은 상관 관계를 유도합니다 .xjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

문지름은 다음과 같습니다. 만약 우리가 충분히 크게하면, y 가 처음 두 변수에 의해서만 거의 "설명"되어 있지만 ,이 작은 상관 관계는 중요한 계수를 초래할 것 입니다.ny

보고 된 p- 값을 재현하기 위해 이 잘 작동 한다는 것을 알았습니다 . 다음은 6 가지 변수 모두의 산점도 행렬입니다.n=500

spm

우측 열 (또는 하단 행)가있다 검사하여 것을 함께 좋은 (포지티브)의 상관 갖는 X 1X 2 다른 변수 명백하지만 작은 상관 관계. 이 행렬의 나머지 부분을 살펴보면 독립 변수 x 1 , , x 5 가 서로 관련이없는 것으로 나타납니다 (임의 δyx1x2x1,,x5δ우리가 알고있는 작은 의존성을 감추십시오.) 예외적이거나 지나치게 높은 레버리지가있는 예외적 인 데이터는 없습니다. 히스토그램은 6 가지 변수가 대략 정규 분포되어 있음을 보여줍니다. 이러한 데이터는 원하는대로 평범하고 "일반 바닐라"입니다.

의 회귀 X 1X 2 는, P 값은 본질적으로 개별 회귀 0으로되어 YX 3 다음 YX 4 , 및 Y 에 대한 X (5) , 상기 p의 값은 0.0024, 0.0083이다 , 및 0.00064 : 즉 "매우 중요합니다". 그러나 완전 다중 회귀 분석에서 해당 p- 값은 각각 .46, .36 및 .52로 증가합니다. 그 이유는 일단 yx 1x 에 대해 회귀 되면yx1x2yx3yx4yx5yx1 , "설명"하도록 남겨진 유일한 것은 잔차에서 작은 양의 오차이며, 이는 ε 에근사 할 것이며,이 오차는 나머지 x i 와 거의 완전히 관련이 없다. ( "거의"올바른 : 잔차가 값에서 일부 계산되었다는 사실로부터 유도 정말로 작은 관계가 X 1 X 2 및이 X , 나는 = 3 , 4 , 5는 일부 약한합니까 관계 X 1 X 2는 우리가 본대로.이 잔류 관계는하지만, 실질적으로 발견 할 수 있습니다.)x2εxix1x2xii=3,4,5x1x2

디자인 매트릭스의 컨디셔닝 수는 2.17에 불과합니다. 이는 매우 낮으며, 높은 다중 공선 성을 나타내지 않습니다. (공선 성이 완벽하지 않다는 것은 조건 수 1에 반영 될 것이지만 실제로 이것은 인공 데이터와 설계된 실험에서만 볼 수 있습니다. 1-6 범위 (또는 변수가 많을수록 더 높음)의 조건 수는 눈에 띄지 않습니다.) 이것으로 시뮬레이션이 완료됩니다. 문제의 모든 측면을 성공적으로 재현했습니다.

이 분석이 제공하는 중요한 통찰력은 다음과 같습니다.

  1. p- 값은 공선성에 대해 직접 아무 것도 알려주지 않습니다. 데이터 양에 크게 의존합니다.

  2. 다중 회귀 분석에서 p- 값과 관련 회귀 분석에서 p- 값 (독립 변수의 하위 집합 포함) 간의 관계는 복잡하고 일반적으로 예측할 수 없습니다.

결과적으로, 다른 사람들이 주장했듯이 p- 값은 모델 선택을위한 유일한 가이드 (또는 주요 가이드)가되어서는 안됩니다.


편집하다

이러한 현상을 나타 내기 위해 500 만큼 클 필요는 없습니다 . n500 질문에 대한 추가 정보에 의해 고무, 다음과 유사한 방식으로 구성되는 데이터 세트이고 (이 경우에서 의 X J = 0.4 X 1 + 0.4 X 2 + δJ = 3 , 4 , 5 ). 이 사이에 0.73 0.38의 상관 관계를 생성 X 1 - 2X 3 - 5n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35. 설계 행렬의 조건 수는 9.05입니다. 조금 높지만 끔찍하지는 않습니다. (어떤 규칙은 10까지의 조건 번호는 괜찮다고 말합니다.) 에 대한 개별 회귀의 p- 값 은 0.002, 0.015 및 0.008입니다. 따라서 일부 다중 공선 성이 관련되어 있지만 그 정도가 크지 않아서 변경할 수는 없습니다. 기본 통찰력은 동일하게 유지됩니다x3,x4,x5: 중요성과 다중 공선 성은 서로 다릅니다. 그들 사이에는 가벼운 수학적 제약이 있습니다; 단일 변수의 포함 또는 제외는 심각한 다중 공선 성이 문제가되지 않더라도 모든 p- 값에 심대한 영향을 미칠 수 있습니다.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

이 변수들 사이의 관계와 y를 예측하는 데있어서의 중요성을 설명하려고 노력하고 있음을 감안할 때 공선 성이 부족하면 초기 다중 선형 회귀 분석에서 나에게 무엇을 말했는지 본질적으로 알려줍니다. 두 변수 만 중요합니까? 변수가 공선 성을 보인 경우 여러 변수가 중요하지만 유사한 정보를 제공한다는 의미입니까? 내가 요점을 완전히 잃어 버렸다면 알려주십시오. 나는 통계 전문가가 아닙니다.
cryptic_star

아, 그리고 이것을 원래 게시물에 추가하지만 내 n은 24입니다 (인간의 주제는 효과가 있으므로 꽤 높습니다). 귀하의 게시물을 기반으로, 이것이 다중 공선 성이 사람들이 더 많은 데이터를 얻는 것을 제안하는 이유-차이점을 더 잘 강조한다고 가정 할 수 있습니다.
cryptic_star

일 때에도 현상이 어떻게 발생하는지 보여주는 새로운 예를 제공합니다 . 관련된 모든 숫자가 양의 정수 (수, 즉)가되도록 쉽게 수정할 수 있습니다. n=24
whuber

1
첫 번째 의견 : 공선 성은 설명 변수 (IV) 중 일부가 중복 될 수 있다고 제안하지만 반드시 그런 것은 아닙니다 . 중요한 것은 IV와 종속 변수 (DV) 간의 관계입니다. IV 중 하나가 다른 IV에 크게 의존 할 수 있지만 DV와 관련하여 유일하게 유용한 정보를 포함 할 수 있습니다. 이것은 중요한 개념입니다. IV 만으로도 관계를 분석 할 때 DV를 가장 잘 설명 할 수있는 변수를 알려줄 수는 없습니다. 공선의 부족 - 속성 만을 의 IV의 - 나던은 DV에 대해 아무것도 알 수있다.
whuber

9

다중 공선성에 문제가 있습니까? 그렇다면 어떻게 진행해야합니까?

상황이 아닙니다. 저는 "4 또는 5"지침에 대해 회의적입니다. 각 예측 변수에 대해 계수의 표준 오차는 예측 변수가 다른 예측 변수와 관련이없는 경우의 2.2 배에서 5.6 배 사이입니다. 그리고 다른 것으로 설명 할 수없는 주어진 예측 변수의 부분은 1 / 2.2에서 1 / 5.6 또는 18 %에서 45 %입니다. 전체적으로 이것은 상당히 상당한 양의 공선 성으로 보입니다.

그러나 잠시 뒤로 물러서 봅시다. 설명 하려고 하는 것이 아니라 * Y * 를 예측 하려고 합니까? 전자의 경우 모델에 다른 변수가있을 때 주어진 변수의 유의 수준이 변경되는지 여부에주의를 기울여야한다고 생각하지 않습니다. 진정한 설명이 필요한 경우보다 업무가 훨씬 쉽습니다.

설명이 목표라면 통계 변수 이상의 정보를 필요로하는 변수들이 서로 관련되는 방식을 고려해야합니다. 분명히 그들은 Y 와 관련된 방식으로 겹치며 , 이러한 공선 성은 예를 들어 Y 를 계산할 때 순위의 중요성을 정하기 어렵게 만듭니다 . 이 상황에서 따라야 할 명확한 길은 없습니다.

어쨌든 교차 검증 방법을 고려하기를 바랍니다.


이 답변은 John의 답변처럼 낮은 p- 값과 높은 상관 관계를 혼동하는 것으로 보입니다. 기억하십시오 : 계수의 표준 오차는 데이터 양이 증가함에 따라 감소 하므로 ( caeteris paribus ) 충분한 관측치가있는 경우 상관 관계 가 거의 없는 데이터로 낮은 p- 값을 얻을 수 있습니다 .
whuber

낮은 p- 값과 높은 상관 관계를 혼동합니까? Pas du tout!
rolando2

그런 다음 엄격하게 p- 값 개념 ( "계수의 표준 오차가 예측 변수가 다른 변수와 상관 관계가없는 경우의 2.2 배에서 5.6 배 사이 임")을 어떻게 설명하는지 설명하십시오. 공선 성의 양 "은 상관 관계와 밀접한 관련이 있습니다 (공동선의 측정 값은 변수가 표준화 될 때 상관 행렬의 속성입니다).
whuber

이런 식으로 봅니다. VIF가 5.6 인 경우 해당 예측 변수의 82 %가 다른 예측 변수에 의해 설명 될 수 있습니다. 이것이 어떻게 N에 의존하는지 알 수 없습니다.
rolando2

1
이 비관적 평가에 대한 대응책 (변수보다 5-10 배 많은 관측 값을 요구하는 것과 같은 경험적 규칙이 있음)은 모델링과 데이터 분석의 전 분야가 거의없는 문제를 중심으로 성장했음을 주목할 만하다 DACE (컴퓨터 실험의 설계 및 분석)와 같은 관측 및 많은 예측 변수 중요한 논문 은 ressources-actuarielles.net/EXT/ISFA/1226.nsf/… 를 참조하십시오 .
whuber

6

다중 공선 성이 있습니다. 당신의 초기 분석은 그것을 보여주었습니다. 그것이 문제가되는 한, 그것은 귀하의 경우에 많은 답변을 가지고있는 것으로 보이는 또 다른 질문입니다.

어쩌면 기본 문제가 더 좋으면 어떻게 해야할지 더 분명할까요? ...

다중 공선 성을 사용하면 회귀 계수는 모델에 대한 각 변수의 고유 한 기여도에 가깝습니다. 일부가 서로 연관되어 있으면 각각의 고유 한 기여도는 더 작습니다. 그것이 아마도 부분적으로 모두 함께있을 때 중요한 것은 없지만 부분적으로 사용될 때 그렇게 할 수있는 부분적 이유입니다.

가장 먼저해야 할 일은 변수 간의 상관 관계가 무엇을 의미하는지 고려하는 것입니다. 예를 들어 똑같은 것을 나타내는 많은 변수가 있습니까? 방대한 규모로 예측 변수를 측정하고 부수적 인 상관 관계를 얻었습니까? 회귀를 수정하려고 시도하지 말고 변수를 이해하십시오.

r = 0.90과 같이 X1과 X2가 매우 강한 상관 관계를 갖는 것을 고려하십시오. X1을 모형에 넣었을 때 중요한 예측 변수 인 경우 X2 만있는 다른 모형도 거의 같은 것이기 때문에 중요 할 가능성이 높습니다. 다중 회귀 분석이 고유 한 기여로 해결되기 때문에 모형에 함께 넣으면 적어도 하나 이상이 고통을 겪어야합니다. 둘 다 중요하지 않을 수 있습니다. 그러나 그것은 요점이 아닙니다. 요점은 왜 그렇게 많이 겹치는지를 인식하고 있으며 심지어 서로 다른 말을하고 있는지 여부와 필요 여부를 인식하고 있습니까? 어쩌면 한 아이디어는 다른 아이디어보다 더 의미 있고 반응 변수와 관련된 아이디어를 표현할 수 있습니다. 아마도 그것들은 가변성 수준이 다른 동일한 것이라고 결론 내릴 것입니다.

또한, 상관 관계가있는 예측 변수를 사용하여 모든 종류의 모형을 볼 때 p- 값은 새로운 예측 변수가 의미있는 기여를하는지 여부를 알 수있는 끔찍한 방법입니다. '회귀를 A) 간단하게 만들거나 B) 원하는 방식으로 나오게하려고하는 것처럼 들리기 때문에 노력하고 있습니다. 유지해야 할 예측 변수와 기여하지 않는 예측 변수를 결정하는 데 도움이되는 AIC를 보는 것이 가장 좋습니다.


낮은 p- 값은 다중 공선 성을 어떻게 보여줍니까? 두 개념은 완전히 다릅니다. 충분한 데이터가 있으면 p- 값이 낮고 공선 성이 거의 없습니다.
whuber

이것이 바로 내가 주장하는 내용입니다. John : 첫 번째 문장에서 OP가 설명하는 내용에 "다중 공선 성이 있습니다"라고 결론을 내 렸습니다. 그러나 이것이 바로 OP가 알고 싶어하는 것입니다. 나는 그 질문에 설명 된 현상이 잘 조정 된 문제와 완벽하게 일치하기 때문에 정답은 "충분한 정보를 제공하지는 않았지만 아마 그렇지 않을 것"이라고 주장합니다. 실제로 OP가보고 한 낮은 VIF는 어설 션이 거짓임을 나타냅니다.
whuber

나는 아무데도 말하지 않았다. 아마도 당신은 내가 초기 분석에 대해 말한 것을 의미 할 것입니다. 초기 분석은 추가 된 다른 효과에 따라 효과가 많이 변한다는 것이 었습니다. 그것은 다중 공선 성 때문이었습니다 (물량을 정량화하지는 않았지만). 물론 중요성은 다른 문제입니다. 당신이 뭘하는지 모르겠어요?
John

의견을 업데이트 해 주셔서 죄송합니다. 어쨌든 잘 작동합니다 .... 독자, 위의 마지막 두 개가 바뀌었고 내 잘못입니다. Whuber, 저는 "문제"라는 단어에 집중했습니다. 다중 공선 성은 수량화하는 것입니다. 일부가 있습니다. 관계없이 변수에 대해 열심히 생각하는 것이 좋습니다. 또한 추가 예측 변수가 추가되거나 제거 될 때 변경되는 이유는 다중 공선 성 때문입니다. 질문자가 실제로 계산 "문제"에 대한 답변을 원한다는 인상을 얻지 못했습니다.
John

우리는 질문을 다른 방식으로 해석 할 수 있습니다, John. 여기에 내 의견이 혼란 스러울 수 있기를 원하지 않기 때문에 요점을 설명하는 답변을 추가했습니다.
whuber

2

개인적으로, 나는 조건 지수와 분산 설명 테이블을 사용하여 공선 성을 분석 할 것입니다.

또한 모델 구축을위한 기준으로 p 값을 사용하지 않을 것이며 6 IV가있는 모델을 1이있는 모델과 비교할 때 변수에 대한 매개 변수의 효과 크기의 변화를 살펴 보겠습니다.

그러나 공선 성없이 언급 한 결과를 확실히 가질 수 있습니다. 공선 성은 X 변수와 그 관계에 관한 것입니다. 그러나 두 변수는 서로 밀접하게 관련되지 않으면 서 Y와 강하게 관련 될 수 있습니다.


1
이것은 두 가지 변수가 서로 강하게 관련되지 않고 Y와 강하게 관련 될 수 있다는 직관적이지 않은 것 같습니다. 내가 지적 할 수있는 예가 있거나 더 긴 설명이 있습니까?
cryptic_star

@Peter-다른 사람들이 설명한 마지막 예측 변수의 1- (1 / 5.6) = 분산의 82 % 인 경우 왜 공선 성이 없을 것이라고 말합니까?
rolando2

3
x1x2y=x1+x2yx1x2x1x2

0

다중 공선성에 관해, 시험 된 변수 대 다른 독립 변수 사이의 0.90의 기본 R 제곱 값에 상응하는 VIF 10 부근에서 수렴하는 일반적으로 언급되는 다양한 임계 값이있다. 변수의 VIF는 통과 가능한 것으로 보이며 기술적으로 모델에 유지할 수 있습니다.

그러나 단계별 회귀 분석법을 사용하여 변수를 가장 잘 조합 한 변수와 변수를 추가하여 더 많은 설명 (R Square 증가)을 얻는 방법을 알 수 있습니다. 중재 벤치 마크는 변수를 추가하기위한 모델에 불이익을 주어 R Square 값을 하향 조정하는 Adjusted R Square 값이어야합니다.

변수는 서로 약간 상관되어 있습니다. 이것은 불가피합니다. 그것은 단지 정도의 문제입니다. 당신이 언급 한 VIF를 감안할 때, 나는 당신이 가장 큰 2 변수 조합에서 대부분의 정보 / 설명 비트를 얻을 것이라고 직관적으로 생각합니다. 그리고 변수를 추가하면 한계 증분 값만 추가 될 수 있습니다.

단계적 회귀 프로세스에 의해 선택된 변수의 조합을 살펴볼 때, 어떤 변수가 선택되어 있고 회귀 계수 부호가 y와의 상관 관계와 일치하는지 살펴볼 것입니다. 그렇지 않은 경우 변수 간의 적법한 상호 작용으로 인한 것일 수 있습니다. 그러나 모형 과적 합의 결과 일 수도 있고 회귀 계수가 의심스러운 결과 일 수도 있습니다. 그것들은 수학적 적합을 반영하지만 근본적인 인과성의 관점에서는 의미가 없습니다.

변수를 선택하는 또 다른 방법은 논리적 인 관점에서 어떤 변수가 모델에 있어야하는 주요 2 또는 3 변수인지 결정하는 것입니다. 그것들로 시작한 다음 변수를 추가하여 더 많은 정보를 얻는 지 확인하십시오. 조정 된 R Square, 원래 회귀에 대한 회귀 계수의 일관성을 확인하고 보류 기간이있는 모든 모델을 분명히 테스트하십시오. 곧 최고의 모델이 무엇인지 분명해질 것입니다.


4
Radj2

설명하는 많은 문제는 일반적으로 선형 회귀 모델에 공통적입니다. 이러한 기술적 문제가 모든 단계적 회귀 방법과 선형 회귀를 일반적으로 버리는 이유인지 확실하지 않습니다. 왜 단계적 회귀 분석이 "임의의 변수를 기반으로 선택하여 많은 문제를 일으키는 지"는 확실하지 않습니다. Stepwise는 다른 모델과 마찬가지로 가장 적합한 것을 찾습니다. 내가 더 중요하게 생각하는 것은 수학적 적합이 해결하려는 문제의 기본 이론 또는 논리와 일치하는지 확인하는 것입니다.
Sympa

3
R2Radj2Fp

gung, 나는 우리가 같은 것을 이야기하고 있는지 확신하지 못한다. Stepwise Regression을 두 가지 방법으로 사용하고 있습니다. 하나는 수동이며 최고의 회귀를 사용하여 모델을 작성합니다. 그리고 첫 번째 모델의 오류를 가장 잘 설명하는 두 번째 변수를 사용하여 추가합니다. 그리고, 당신은 당신의 AIC 점수가 악화 될 때까지 계속 가고 있습니다. 내가 사용한 두 번째 방법은 프로세스를 자동화하고 Thierry Fahmy와 그의 팀이 개발 한 XLStat 소프트웨어를 사용하는 것입니다. 그는 자신의 팀의 다른 사람들과 함께 수학 박사 학위를 이해했습니다. 그리고 나는 그들이 당신이 언급 한 모든 함정에 빠졌을 것이라고 확신하지 않습니다.
Sympa

2
Gaetan, @gung이 말하려는 것은 단계적 방법이 초기 통계 회귀 프레임 워크 (손실 함수, p 값 등)에 심각한 손상을 일으킬 수 있다고 생각합니다. Frank Harrell의 답변과 의견은 여기를 참조 하십시오 . 여러 스레드에서 논의 된 처벌 회귀는 좋은 대안이 될 수 있습니다. "프로세스를 자동화하는 (...) 소프트웨어"는 R을 생각 나게합니다 fortune(224). 여기서 트롤은 아닙니다. 소프트웨어가 옵션으로 자동으로 제공하거나 제공하는 것을 반드시 신뢰할 필요는 없음을 강조하고 싶습니다.
chl

0

설명 변수가 개수 데이터이고 정규 분포로 가정하는 것이 합리적이지 않은 경우 R scale명령을 사용하여 표준 정규 변수로 변환 할 수 있습니다 . 이렇게하면 공선 성이 줄어들 수 있습니다. 그러나 그것은 아마도 전체 문제를 해결하지 못할 것입니다.

공선 성을 분석하고 처리하기위한 유용한 R 명령은 Florian Jaeger의 블로그 에서 찾을 수 있습니다 .

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

z.함수는 벡터를 표준 정규 변량으로 변환합니다. 이 r.함수는 한 예측 변수를 다른 예측 변수에 대해 회귀시키기 위해 표준화 된 잔차를 반환합니다. 이를 사용하여 모델 편차를 다른 트랜치 로 효과적으로 분할하여 일부 변수 만 가장 고위 트랜치에 액세스 할 수 있으며 다음 트랜치가 잔차 변수에 제공됩니다. (제 홈 스핀 용어에 대해 유감스럽게 생각합니다.)

Y ~ A + B

다중 공선 성으로 인해 다음 중 하나를 실행할 수 있습니다.

Y ~ A + r.(B)
Y ~ r.(A) + B

따라서 "주요 트랜치"변수의 잔차 만 ( "노란 트랜치"변수에 대해 회귀 된 경우) 모형에 적합합니다. 이 방법으로 다중 공선 성으로부터 보호 할 수 있지만보고 할 더 복잡한 매개 변수 세트가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.