를 사용하여 모델을 선택하고 싶습니다 regsubsets()
. olympiadaten (데이터 업로드 : http://www.sendspace.com/file/8e27d0 ) 이라는 데이터 프레임이 있습니다 . 먼저이 데이터 프레임을 첨부 한 다음 분석을 시작합니다. 내 코드는 다음과 같습니다.
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
줄거리의 스크린 샷 :
문제는 이제 최고의 모델을 "수동으로"다시 맞추고 살펴보고 싶지만 조정 된 R 제곱의 값이 regsubsets 출력과 동일하지 않습니까? 예를 들어 그래픽에서 가장 간단한 모델을 수행하는 경우와 같은 다른 모델의 경우도 마찬가지입니다.
summary(lm(Gesamt~ExpHealth))
그래픽은 약 0.14의 조정 된 R 제곱을 가져야하지만 출력을 볼 때 0.06435의 값을 얻습니다.
출력은 다음과 같습니다 summary(lm(Gesamt~ExpHealth))
.
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
내가 뭘 잘못했을지 모르겠지만 도움을 주시면 감사하겠습니다.
마지막으로 몇 가지 질문이 더 있습니다.
- AIC와 조정에 의한 모델 선택의 차이점은 무엇입니까? R 제곱?
- 둘 다 적합도를 측정하고 변수 수를 인식하므로 AIC에서 선택한 최고의 모델이 아니며 가장 높은 조정 된 모델도 아닙니다. r 제곱?
- 12 개의 변수가 있다면 이것은 모델의 가능성, 그렇지?
- 그래서 않습니다
regsubsets()
명령은 각 모델을 계산하고 가장 멋진 두 (보여nbest=2
각 크기)? - 그렇다면 실제로 '최상의'모델을 얻습니까?
- 그리고 뒤로 선택을 사용하여 AIC를 수행 할 때 (모든 변수가 포함 된 모델로 시작), 이것이
regsubsets()
최고라고 말하는 동일한 모델로 끝나는가?