다중 공선 성 및 스플라인 회귀에 문제가 있습니까?


12

자연적인 (즉, 제한된) 큐빅 스플라인을 사용할 때 생성 된 기본 함수는 매우 공 선형이며 회귀에 사용될 때 다중 공선 성을 나타내는 매우 높은 VIF (분산 인플레이션 계수) 통계를 생성하는 것으로 보입니다. 예측 목적으로 모델의 경우를 고려할 때 이것이 문제입니까? 스플라인 구조의 특성으로 인해 항상 그렇습니다.

다음은 R의 예입니다.

library(caret)
library(Hmisc)
library(car)
data(GermanCredit)

spl_mat<-rcspline.eval(GermanCredit$Amount,  nk=5, inclx=TRUE) #natural cubic splines with 5 knots

class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))

cor(spl_mat)

OUTPUT:
              x                              
    x 1.0000000 0.9386463 0.9270723 0.9109491
      0.9386463 1.0000000 0.9994380 0.9969515
      0.9270723 0.9994380 1.0000000 0.9989905
      0.9109491 0.9969515 0.9989905 1.0000000


mod<-glm(class~.,data=dat,family=binomial()) #model

vif(mod) #massively high

OUTPUT:
x         V2         V3         V4 
319.573 204655.833 415308.187  45042.675

최신 정보:

R (및 기타)의 Hmisc 패키지 작성자 인 Harrell 박사에게 연락하여 알고리즘이 수렴하고 (예 : 로지스틱 회귀) 표준 오류가 폭발하지 않는 한 (Maarten이 아래에 언급 한대로) 응답했습니다. 모델은 테스트 세트에서 가장 잘 보여 지므로이 공선성에는 문제가 없습니다.

또한, 그는 진술 (이 그의 뛰어난 회귀 모델링 전략의 65 페이지에 존재하는 다중 공선는 샘플 샘플에서 때 공선 변경 문제로 제한 입방 스플라인 같은 대수 방식으로 구성 변수 간의 공선 성이 문제가되지 않습니다).


1
생성 된 스플라인을 항상 직교화할 수 있습니다 (예 : rcsgenStata 명령은 Gram-Schmidt orthogonalizaton 사용)
boscovich

답변:


7

다중 공선 성은 그러한 함수를 추정 할 때 수치 문제를 일으킬 수 있습니다. 그렇기 때문에 일부 는 제한된 큐빅 스플라인 대신 B 스플라인 (또는 해당 테마의 변형)을 사용하는 이유 입니다. 따라서 제한된 입방 스플라인을 더 큰 도구 상자에서 잠재적으로 유용한 도구로 보는 경향이 있습니다.


안녕 마틴, 수치 문제를 말할 때 수렴이나 그와 관련이 있습니까? 회귀가 수렴되어 테스트 세트에서 잘 수행되는 것처럼 보이는 경우 상황이 문제가 아니라고 결론을 내립니까?
B_Miner

수치적인 문제가 있다면 수렴 부족이 발생할 수 있습니다 (필수는 아님). 비현실적인 계수 추정 및 / 또는 비현실적으로 높은 표준 오차는 다른 가능한 결과입니다.
Maarten Buis

1
QR 분해와 같은 방법이 많은 도움이되었습니다. 그러나 여전히 최신 소프트웨어를 깨뜨릴 수는 있습니다.
Maarten Buis

1
문제가되지 않을 수 있습니다. 그러나 수치 문제가있는 경우 scale=TRUER rms패키지의 일부 피팅 함수에 대한 인수는 피팅 전에 모든 열을 표준화하고 사용자가 설명 할 필요가없는 방식으로 피팅 후 계수를 비 표준화합니다.
Frank Harrell

2
개별 계수와 표준 오차를 너무 많이 보지 마십시오. 적합 곡선 전체를보십시오.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.