현재 혼합 효과 선형 모델을 사용하고 있습니다.
R에서 "lme4"패키지를 사용하고 있습니다.
내 모델은 다음과 같은 형식을 취합니다.
model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect))
모형을 실행하기 전에 예측 변수 간의 가능한 다중 공선 성을 확인했습니다.
나는 이것을함으로써 이것을했다 :
예측 변수의 데이터 프레임 만들기
dummy_df <- data.frame(predictor1, predictor2)
"cor"함수를 사용하여 예측 변수 간의 Pearson 상관 관계를 계산하십시오.
correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2)
"correl_dummy_df"가 0.80보다 큰 경우, predictor1과 predictor2가 너무 상관성이 있고 내 모델에 포함되지 않았다고 결정했습니다.
약간의 독서를 할 때, 다중 공선 성을 확인하는 더 객관적인 방법이 나타날 것입니다.
누구든지 이것에 대한 조언이 있습니까?
"VIF (Variance Inflation Factor)"는 하나의 유효한 방법으로 보입니다.
VIF는 AED 패키지 (비 크랜)의 "corvif"기능을 사용하여 계산할 수 있습니다. 패키지는 http://www.highstat.com/book2.htm 에서 찾을 수 있습니다 . 패키지는 다음 책을 지원합니다.
Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA & Smith, GM 2009. R, 1 판의 생태학에서 혼합 효과 모델 및 확장. 스프링거, 뉴욕.
일반적으로 VIF가 5보다 크면 예측 변수간에 다중 공선 성이 높다는 것입니다.
VIF를 사용하는 것이 단순한 Pearson 상관 관계보다 강력합니까?
최신 정보
흥미로운 블로그를 찾았습니다.
http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/
블로거는 lme4 패키지에서 모델의 VIF를 계산하는 유용한 코드를 제공합니다.
코드를 테스트했으며 훌륭하게 작동합니다. 이후 분석에서 다중 공선 성이 내 모델의 문제가 아님을 발견했습니다 (모든 VIF 값 <3). 이전에 일부 예측 변수 사이에서 높은 Pearson 상관 관계를 찾았다는 점을 감안할 때 이것은 흥미로 웠습니다.
http://highstat.com/Books/BGS/GAMM/RCodeP2/HighstatLibV6.R
AED
패키지 가 중단되었습니다 . 대신에, 단지source("http://www.highstat.com/Book2/HighstatLibV6.R")
에 대한corvif
기능. (2) 실제 답변을 제공하기를 희망하지만 (a) VIF는 다중 공선 성 을 고려 한다고 생각 합니다 (예 : 세 쌍의 예측 변수가있을 수 있지만 쌍 쌍 상관 관계가 강한 것은 아니지만 A와 B의 선형 조합은 C와 밀접한 상관 관계가 있습니다) ) 및 (b) 공선 용어를 삭제하는 지혜에 대해 강력하게 유보했다. Graham Ecology 2003, doi : 10.1890 / 02-3114 참조