변수를 버리지 않고 높은 다중 공선 성을 갖는 선형 회귀 분석에서 불안정한 추정값을 어떻게 처리 할 수 있습니까?


13

다중 공선 성이 높은 선형 회귀 분석의 베타 안정성?

선형 회귀 분석에서 변수 및 는 높은 다중 공선 성을 가지고 있습니다 (상관 관계는 약 0.9입니다).x 2x1x2

우리는 계수 안정성 에 대해 염려 하므로 다중 공선 성을 처리해야합니다.β

교과서 솔루션은 변수 중 하나를 버리는 것입니다.

그러나 우리는 단순히 변수를 버림으로써 유용한 정보를 잃고 싶지 않습니다.

어떤 제안?


5
리지 회귀와 같은 정규화 체계를 사용해 보셨습니까?
Néstor

답변:


11

상관 행렬이 특이점에 가까운 경우 (즉, 변수의 상관 관계가 높은 경우) 능형 회귀 접근을 시도 할 수 있습니다 . 강력한 추정치를 제공합니다 .β

유일한 질문은 정규화 매개 변수 를 선택하는 방법 입니다. 다른 문제를 시도하는 것이 좋지만 간단한 문제는 아닙니다.λ

도움이 되었기를 바랍니다!


2
교차 유효성 검사는 ;-) 를 선택하기 위해 일반적으로 수행하는 작업 입니다. λ
Néstor

실제로 (응답 및 Nestors의 의견에 +1), "정규 형식"( 의 고유 분해를 사용하여)으로 계산을 수행 하면 가 leave-one-out 교차 유효성 검사 오류를 최소화하는 것을 찾을 수 있습니다λXTXλ
Newk

고마워요! R의 교차 검증을 포함하여이를 수행하는 방법에 대한 튜토리얼 / 노트가 있습니까?
Luna

이 책의 3 장 stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf를 확인하십시오 . 능선 회귀의 구현은 일부 저자에 의해 R에서 수행됩니다 (Google은 친구입니다!).
Néstor

2
lm.ridgeMASS 패키지에서 루틴을 사용할 수 있습니다 . 예를 같은 호출 에 의 값 범위를 전달하면 의 일반화 된 교차 유효성 검사 통계를 다시 가져 와서 : 에 대해 플로팅 하여 최소값을 선택할 수 있습니다. λλfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))fooλplot(foo$GCV~foo$lambda)
jbowman

10

글쎄, 내가 전에 사용한 한 가지 특별한 방법이 있습니다. 이 절차에 이름이 있는지 확실하지 않지만 직관적으로 의미가 있습니다.

목표가 모델을 맞추는 것이라고 가정하십시오.

Yi=β0+β1Xi+β2Zi+εi

여기서 두 예측 변수 인 는 서로 관련이 있습니다. 당신이 지적했듯이, 같은 모델에서 둘 다 사용하면 계수 추정치와 값에 이상한 일을 할 수 있습니다 . 대안은 모델을 맞추는 것입니다 pXi,Zip

Zi=α0+α1Xi+ηi

그러면 잔차 는 와 상관이 없으며 어떤 의미에서는 와의 선형 관계에 포함되지 않은 의 일부로 생각할 수 있습니다 . 그런 다음 모델에 맞게 진행할 수 있습니다X i Z i X iηiXiZiXi

Yi=θ0+θ1Xi+θ2ηi+νi

이는 첫 번째 모형의 모든 효과를 포착하고 (실제로 첫 번째 모형과 정확히 동일한 를 가짐 ) 예측 변수는 더 이상 동일 선상에 있지 않습니다.R2

편집 : OP는 인터셉트가 포함될 때와 같이 인터셉트를 생략 할 때 예측 변수와 잔차가 왜 예측 변수와 0의 상관 관계를 갖지 않는지에 대한 설명을 요청했습니다. 의견을 게시하기에 너무 길어서 여기에서 수정했습니다. 이 파생은 특별히 밝아지지는 않지만 (불행히도 합리적인 직관적 인 주장을 제기 할 수 없었습니다) OP가 요청한 것을 보여줍니다 .

절편은 단순 회귀 분석에서 생략 될 때 , 이므로 . 와 사이의 샘플 상관은 비례합니다. 여기서 은 막대 아래 수량의 샘플 평균을 나타냅니다. 이제 이것이 반드시 0과 같지는 않다는 것을 보여줄 것입니다. ei=yixixiyiβ^=xiyixi2 xieiei=yixixiyixi2xiei

xe¯x¯e¯
¯

먼저 우리는

xe¯=1n(xiyixi2xiyixi2)=xy¯(1xi2xi2)=0

그러나

x¯e¯=x¯(y¯x¯xy¯x2¯)=x¯y¯x¯2xy¯x2¯

그래서 위해서는 및 정확히 0의 샘플 상관 관계를 가지고, 우리는 필요 로 . 즉,eixix¯e¯0

y¯=x¯xy¯x2¯

일반적으로 두 개의 임의의 데이터 세트 대해서는 유지되지 않습니다 .x,y


이것은 부분 회귀 그림을 상기시킵니다 .
Andy W

3
이는 주 구성 요소로 를 교체 한 것과 비슷합니다 . (X,Z)
whuber

3
내가 생각한 한 가지는 PCA가 두 개 이상의 변수로 쉽게 일반화된다는 것입니다. 다른 하나는 와 대칭 적으로 처리 하는 반면, 귀하의 제안은 이러한 변수 중 하나를 임의로 선택하는 것으로 보입니다. 또 다른 생각은 PCA가 변수의 수를 줄이는 훈련 된 방법을 제공한다는 것입니다 (작은 주요 구성 요소가 종속 변수와 밀접한 관련이있을 수 있으므로주의해야합니다). XZ
whuber

1
안녕 매크로, 훌륭한 증거 감사합니다. 그래 이제 이해합니다. x와 잔차 사이의 샘플 상관에 대해 이야기 할 때, 샘플 상관이 0이되도록 절편 항을 포함해야합니다. 반면에, x와 잔차 사이의 직교성에 대해 이야기 할 때는 절편 항이 필요하지 않습니다. 직교성을 유지하기 위해 포함됩니다.
Luna

1
@ Luna, 나는 능선 회귀 사용에 특히 동의하지 않습니다. 이것은 나에게 처음 일어난 일이었습니다 (제안되기 전에 대답했습니다). 내가 말할 수있는 한 가지는 능선 회귀 추정치가 바이어스된다는 것입니다. 어떤 의미에서, 당신은 실제로 일반 회귀 분석과는 약간 다른 (줄어든) 양을 추정하고 있습니다. ). 또한 여기에 설명 된 것은 기본 선형 회귀에 대한 이해 만 필요하며 일부는 직관적으로 더 매력적일 수 있습니다.
매크로

4

나는 지금까지 주어진 두 가지 대답을 모두 좋아합니다. 몇 가지를 추가하겠습니다.

다른 옵션은 변수를 결합 할 수도 있다는 것 입니다. 이는 두 가지를 모두 표준화 (즉, z- 점수로 변환)하여 평균화 한 다음 복합 변수 만 사용하여 모델을 피팅함으로써 수행됩니다. 이것은 동일한 기본 구조의 두 가지 다른 측정치라고 생각할 때 좋은 접근 방법입니다. 이 경우 오류로 오염 된 두 가지 측정 값이 있습니다. 실제로 변수에 가장 가능성이 높은 값그들 사이의 관심은 그들 사이에 있으므로 평균화하면 더 정확한 추정치가됩니다. 공칭 문제가 결과를 오염시키지 않도록 먼저 동일한 규모로 배치하도록 표준화합니다 (예 : 일부는 화씨이고 일부는 섭씨 인 경우 여러 온도 측정의 평균을 원하지 않습니다). 물론, 이미 같은 규모 (예 : 상관 관계가 높은 여론 조사)가있는 경우 해당 단계를 건너 뛸 수 있습니다. 변수 중 하나가 다른 변수보다 정확하다고 생각되면 가중 평균을 수행 할 수 있습니다 (아마도 측정 오류의 역수를 사용).

변수가 동일한 구문의 다른 측정 값이고 충분히 높은 상관 관계가있는 경우 많은 정보를 잃지 않고서도 실제로이를 폐기 할 수 있습니다. 예를 들어, 실제로는 한 번의 상황에서 오류 분산과 부스트 전력을 흡수하기 위해 공변량을 사용하고 싶었지만 공변량에 대해서는 신경 쓰지 않았습니다. 실제로 독일 적이지는 않았습니다. 몇 가지 옵션을 사용할 수 있었고 모두 과 서로 관련이있었습니다 . 나는 기본적으로 무작위로 하나를 골라 움직였으며 잘 작동했습니다. 다른 전략을 사용하여 다른 전략도 포함 시켰다면 2 자유도를 타는 전력 을 잃어버린 것 같습니다 . 물론, 나는 그들을 결합 할 있지만 왜 귀찮게합니까? r>.98그러나 이것은 변수가 같은 두 가지 버전 이기 때문에 상관 관계가 있다는 사실에 크게 좌우됩니다 . 서로 관련이있는 다른 이유가있는 경우 이는 완전히 부적절 할 수 있습니다.

즉, 상관 변수 뒤에 무엇이 있는지 생각하는 것이 좋습니다. 즉, 어떤 전략을 사용할지 선택하는 데 최고의 역할을하기 위해 이들이 서로 밀접하게 관련되어 있는지에 대한 이론이 필요합니다 . 동일한 잠재 변수에 대한 다양한 측정 값 이외에도 인과 사슬 (예 : ) 및 변수가 여러 인과 관계 힘의 결과 인 복잡한 상황 일 수 있습니다. 둘 다 동일합니다. 아마도 가장 극단적 인 경우는 @whuber가 아래 주석에서 설명하는 서프 레서 변수입니다. 예를 들어 @Macro의 제안은 주로 관심이 있고 의 추가 기여에 대해 궁금 하다고 가정합니다.X Z X x 1 x 2 X ZX1X2YXZ 의 기여 를 설명한 . 따라서 변수가 서로 관련이있는 이유와 알고 싶은 것이 무엇인지 생각하면 어떤 것으로 (즉, 또는 ) 및 어떤 로 취급 할지 결정하는 데 도움이됩니다 . 핵심은 이론적 통찰력 을 사용 하여 선택을 알리는 것입니다. Xx1x2XZ

참조 - 나는 당신이 원래 의도했던 변수를 사용 할 수 있습니다 그들이 바이어스됩니다 있지만 (아주 가까운 그들의 진정한 값이다 수율 베타 가능성이 있기 때문에 그 능선 회귀, 틀림없이 더 나은 동의 여기 또는 여기에 대한 자세한 내용은 ). 그럼에도 불구하고, 나는 또한 두 가지 잠재적 단점이 있다고 생각합니다.

아마도 궁극적 인 접근 방식은 구조 방정식 모델에 적합 할 것입니다. 잠재 변수를 포함하여 작동한다고 생각되는 정확한 관계 세트를 공식화 할 수 있기 때문입니다. 그러나 나는 가능성을 언급하는 것 외에는 SEM에 대해 충분히 말할 수 없습니다. (또한 두 개의 공변량으로 설명하는 상황에서 과잉이 될 것이라고 생각합니다.)


4
첫 번째 요점 : 벡터 에 값의 범위가 있고 벡터 가 과 완전히 상관되지 않은 작은 값을 갖도록하여 는 과 크게 상관됩니다 . 설정하십시오 . 또는 에 대한 의 회귀에서는 유의하거나 중요한 결과가 표시되지 않습니다. 의 회귀에서 에 대한 및 당신은 얻을 것이다 매우 때문에 잘 맞는을 . 따라서 또는 중 하나를 버리면 e X 1 X 2 = X 1 + e X 1 Y = e Y X 1 X 2 Y X 1 X 2 Y = X 2X 1 X 1 X 2 Y YX1eX1X2=X1+eX1Y=eYX1X2YX1X2Y=X2X1X1X2, 에 대한 모든 정보를 잃어 버릴 것 입니다. "상관성이 높다"는 것은 " 에 대해 동등한 정보를 가지고있다"는 의미가 아닙니다 . YY
whuber

정말 고마워요! Q1. 이 접근 방식이 작동하는 이유 : "이 두 가지를 모두 표준화하여 (즉, z- 점수로 변환) 평균화 한 다음 복합 변수 만 사용하여 모델을 피팅하면됩니다."? Q2. 릿지 회귀가 더 나은 이유는 무엇입니까? Q3. 왜 SEM이 더 좋을까요? 아무도 이것에 조명을 비추 지 않습니까? 감사합니다!
Luna

안녕하세요 루나, 기꺼이 도와주세요. 실제로 이것을 다시 편집하겠습니다. @ whuber는 처음에 깨달았 던 것보다 옳았습니다. 추가 질문에 도움을주기 위해 더 많은 노력을 기울일 것이지만 시간이 많이 걸리므로 시간이 오래 걸릴 수 있습니다. 어떻게 진행되는지 봅시다.
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.