9 개의 연속 독립 변수가있는 데이터 세트가 있습니다. 모델을 단일 백분율 (종속) 변수에 맞추기 위해 이러한 변수 중에서 선택하려고합니다 Score
. 불행히도, 나는 여러 변수 사이에 심각한 공선 성이 있음을 알고 있습니다.
stepAIC()
변수 선택을 위해 R 의 함수를 사용해 보았지만 그 방법은 변수가 방정식에 나열된 순서에 민감한 것 같습니다 ...
내 R 코드는 다음과 같습니다 (백분율 데이터이므로 점수에 로짓 변환을 사용합니다).
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
어떤 이유로, 방정식의 시작 부분에 나열된 변수가 stepAIC()
함수에 의해 선택되고 결과는 Var9
먼저 (물결표 뒤에) 나열하여 조작 할 수 있음을 발견했습니다 .
여기서 모델을보다 효과적으로 (그리고 덜 논란의) 피팅하는 방법은 무엇입니까? 나는 선형 회귀를 사용하여 실제로 틀에 얽매이지 않았습니다. 내가 원하는 유일한 것은 변수의 변화를 실제로 이끌어내는 9 개의 변수 중 어느 것을 이해할 수 있어야 Score
합니다. 바람직하게는, 이것은 이들 9 개의 변수에서 공선성에 대한 강한 잠재력을 고려하는 일부 방법 일 것이다.
Score
중 어느 것이 변수 의 변동을 실제로 주도하고 있는지 이해할 수있는 것"이라고 물었다 . 강력한 공선 성이 존재하는 경우 올가미는 적어도 OP의 의견을보다 엄격하게 해석하여 도움을주지 않을 것입니다.