독립 변수를 표준화하면 공선 성이 감소합니까?


13

Bayes / MCMC에 대한 좋은 글을 보았습니다. IT는 독립 변수를 표준화하면 MCMC (Metropolis) 알고리즘이 더 효율적일뿐만 아니라 (다중) 공선 성을 줄일 수 있다고 제안합니다. 사실일까요? 이것이 표준으로 해야 할 일입니까? (죄송합니다).

Kruschke 2011, 베이지안 데이터 분석. (AP)

편집 : 예를 들어

     > data(longley)
     > cor.test(longley$Unemployed, longley$Armed.Forces)

Pearson's product-moment correlation

     data:  longley$Unemployed and longley$Armed.Forces 
     t = -0.6745, df = 14, p-value = 0.5109
     alternative hypothesis: true correlation is not equal to 0 
     95 percent confidence interval:
     -0.6187113  0.3489766 
     sample estimates:
      cor 
     -0.1774206 

     > standardise <- function(x) {(x-mean(x))/sd(x)}
     > cor.test(standardise(longley$Unemployed), standardise(longley$Armed.Forces))

Pearson's product-moment correlation

     data:  standardise(longley$Unemployed) and standardise(longley$Armed.Forces) 
     t = -0.6745, df = 14, p-value = 0.5109
      alternative hypothesis: true correlation is not equal to 0 
     95 percent confidence interval:
      -0.6187113  0.3489766 
      sample estimates:
       cor 
     -0.1774206 

이것은 상관 관계를 감소시키지 않았으므로 벡터의 선형 의존성은 제한적입니다.

무슨 일이야?

아르 자형

답변:


19

주 효과 간의 공선 성을 전혀 바꾸지 않습니다. 스케일링도 마찬가지입니다. 선형 변환은 그렇게하지 않습니다. 변경되는 것은 주 효과와 상호 작용의 상관 관계입니다. A와 B가 0의 상관 관계로 독립적 인 경우에도 A와 A : B 사이의 상관 관계는 스케일 팩터에 따라 달라집니다.

R 콘솔에서 다음을 시도하십시오. 참고 rnorm다만이 경우 50 개 샘플에서, 사용자가 설정 한 인구 값을 갖는 정규 분포에서 무작위 샘플을 생성합니다. 이 scale함수는 샘플을 평균 0과 SD 1로 표준화합니다.

set.seed(1) # the samples will be controlled by setting the seed - you can try others
a <- rnorm(50, mean = 0, sd = 1)
b <- rnorm(50, mean = 0, sd = 1)
mean(a); mean(b)
# [1] 0.1004483 # not the population mean, just a sample
# [1] 0.1173265
cor(a ,b)
# [1] -0.03908718

이러한 독립 샘플의 우발적 상관 관계는 0에 가깝습니다. 이제 평균 0과 SD 1로 정규화하십시오.

a <- scale( a )
b <- scale( b )
cor(a, b)
# [1,] -0.03908718

또,이 평균은 모두 0 SD = 1 인 경우에도 동일한 값으로 a하고 b.

cor(a, a*b)
# [1,] -0.01038144

이것은 또한 0에 매우 가깝습니다. (a * b는 교호 작용 항으로 간주 될 수 있습니다)

그러나 일반적으로 SD와 예측 변수의 평균은 약간 다르므로 변경합시다 b. 새 샘플을 가져 오는 대신 원본의 크기 b를 5로, SD를 2로 조정합니다.

b <- b * 2 + 5
cor(a, b)
 # [1] -0.03908718

다시, 우리는 친숙한 상관 관계를 보았습니다. 스케일링의 상관 관계에 영향이없는있다 ab. 그러나!!

cor(a, a*b)
# [1,] 0.9290406

이제는 중심화 및 / 또는 표준화를 통해 멀리 갈 수있는 실질적인 상관 관계가 있습니다. 나는 일반적으로 단지 중심으로 간다.


1
포괄적이고 이해하기 쉬운 답변 +1 (코드 포함)
Peter Flom

1
예를 들어 2 차 항을 포함하려는 경우에도 유용합니다.
Aniko

절대적으로 Aniko
John

1
가장 좋은 답변-고마워. 나는이 책을 잘못 해석 할 때 불의를 행했을지도 모르지만 아마도 내 무지를 드러내는 것이 가치가있을 것이다.
Rosser

7

다른 사람들이 이미 언급했듯이 표준화는 실제로 공선 성과 관련이 없습니다.

완벽한 공선 성

의 무엇부터 시작하자 표준화 는 평균을 뺀 결과 평균 IS 화합 제로와 표준 편차에 동일 있도록 표준 편차로 나누어있다가 우리가 무엇을 의미하는지에 관해 (정상화 일명)이다. 따라서 랜덤 변수 X 평균 μX 및 표준 편차 σX 인 경우

ZX=XμXσX

μZ=0σZ=1E(X+a)=E(X)+aE(bX)=bE(X)Var(X+a)=Var(X)Var(bX)=b2Var(X)Xa,b

XYλ0λ1

Y=λ0+λ1X

XμXσXYμY=λ0+λ1μXσY=λ1σXZX=ZX

상관 관계

물론 완벽한 공선 성은 종종 우리가 볼 수있는 것이 아니라, 강한 상관 관계가있는 변수도 문제가 될 수 있습니다 (그리고 그것들은 공선 성과 관련된 종입니다). 표준화가 상관 관계에 영향을 미칩니 까? 스케일링 전후에 두 개의 플롯에서 두 개의 상관 변수를 보여주는 다음 플롯을 비교하십시오. 여기에 이미지 설명을 입력하십시오

차이점을 알 수 있습니까? 보시다시피, 의도적으로 축 레이블을 제거 했으므로 부정 행위가 아니라고 확신하게하려면 레이블이 추가 된 플롯을 참조하십시오.

여기에 이미지 설명을 입력하십시오

상관 관계 가 다음 과 같은 경우 수학적으로 말하기

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)

공선 변수로 우리는

영형아르 자형아르 자형(엑스,와이)=이자형[(엑스μ엑스)(와이μ와이)]σ엑스σ와이=이자형[(엑스μ엑스)(λ0+λ1엑스λ0λ1μ엑스)]σ엑스λ1σ엑스=이자형[(엑스μ엑스)(λ1엑스λ1μ엑스)]σ엑스λ1σ엑스=이자형[(엑스μ엑스)λ1(엑스μ엑스)]σ엑스λ1σ엑스=λ1이자형[(엑스μ엑스)(엑스μ엑스)]σ엑스λ1σ엑스=이자형[(엑스μ엑스)(엑스μ엑스)]σ엑스σ엑스

영형V(엑스,엑스)=V아르 자형(엑스)

=영형V(엑스,엑스)σ엑스2=V아르 자형(엑스)V아르 자형(엑스)=1

표준화 된 변수를 사용하는 동안

영형아르 자형아르 자형(엑스,와이)=이자형[(엑스0)(와이0)]1×1=영형V(엑스,와이)=V아르 자형(엑스)=1

엑스=와이

마지막으로 Kruschke가 말하고 있는 것은 변수 를 표준화 하면 Gibbs 샘플러의 삶이 더 쉬워지고 제시 한 회귀 모델에서 절편과 기울기 사이 의 상관 관계가 감소한다는 것입니다 . 그는 변수를 표준화하면 변수 간의 공선 성이 감소한다고 말하지 않습니다.


0

표준화는 변수 간의 상관에 영향을 미치지 않습니다. 그들은 정확히 동일하게 유지됩니다. 상관 관계는 변수 방향의 동기화를 캡처합니다. 변수의 방향을 바꾸는 표준화는 없습니다.

변수 사이의 다중 공선 성을 제거하려면 주성분 분석 (PCA)을 사용하는 것이 좋습니다. 아시다시피 PCA는 다중 공선 성 문제를 제거하는 데 매우 효과적입니다. 반면 PCA는 결합 된 변수 (주성분 P1, P2 등)를 불투명하게 만듭니다. PCA 모델은 기존의 다변량 모델보다 설명하기가 항상 더 어렵습니다.


더 나은 현대 대안은 정규화입니다.
kjetil b halvorsen

표준 단계별 알고리즘과 LASSO 간의 변수 선택을 테스트했습니다. 그리고 LASSO는 아주 먼 곳에 있습니다. LASSO는 변수에 영향을 미치며 더 강한 변수보다 약한 변수를 선택할 수 있습니다. 변수 표시가 변경 될 수도 있습니다. 또한 통계적 유의성, 신뢰 구간 및 예측 구간의 전체 프레임 워크를 세분화합니다. LASSO는 때때로 작동 할 수 있습니다. 그러나 MSE vs. Lambda 그래프와 Coefficients vs. Lambda 그래프를주의 깊게 살펴보십시오. LASSO 모델이 작동하는지 시각적으로 관찰 할 수있는 곳입니다.
Sympa

0

공선 성을 줄이지 않고 VIF를 줄일 수 있습니다. 일반적으로 우리는 공선성에 대한 우려를 나타내는 지표로 VIF를 사용합니다.

출처 : http://blog.minitab.com/blog/adventures-in-statistics-2/what-are-the-effects-of-multicollinearity-and-when-can-i-ignore-them


2
사이트에 오신 것을 환영합니다. 현재 이것은 답변보다 더 많은 의견입니다. 링크에서 정보 요약을 제공하여 확장하거나 주석으로 변환 할 수 있습니다. 또한, 링크 된 게시물에 대한 나의 독서는 표준화가 공선 성을 감소시키지 않고 VIF를 감소시키는 것은 아닙니다. 그들의 예는 그것보다 매우 구체적이고 뉘앙스가 있습니다.
gung-Monica Monica 복원

-3

표준화는 공선 성을 줄이는 일반적인 방법입니다. (두 쌍의 변수에 대해 시도하여 작동하는지 매우 빠르게 확인할 수 있어야합니다.) 일상적으로 수행하는지 여부는 분석에서 문제의 공선 성이 얼마나 많은지에 달려 있습니다.

편집 : 오류가 발생했습니다. 그러나 표준화가하는 것은 제품 용어 (상호 작용 용어)와의 공선 성을 줄이는 것입니다.


흠, 설명해 주시겠습니까? 표준화하면 랜덤 변수의 평균과 분산이 각각 0과 1로 변경됩니다. 이것은 두 변수 사이의 상관 관계를 변경해서는 안됩니다. 표준화가 어떻게 계산 효율성을 향상시킬 수는 있지만 다중 선형성을 줄이는지는 알 수 없습니다.
Charlie

아니오, 나는 잃어 버렸습니다 ... 예측 행렬에서 열 요소의 선형 의존성을 어떻게 바꿀 수 있습니까? (
공동성

표준화가 순전히 수학적인 의미에서 공선 성을 변화시키는 것은 정확하지 않지만, 선형 시스템을 풀기 위해 알고리즘의 수치 안정성을 향상시킬 수 있습니다. 이 답변에서 혼란의 원인이 될 수 있습니다.
whuber

표준화는 단지 다중 공선 성을 감소시키지 않습니다. 일반적으로 변수 간의 상관 관계는 전혀 변경되지 않습니다.
Sympa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.