모델 선택 절차에 대한 정규 계산 및 해석, 하위 집합 계산 문제


9

를 사용하여 모델을 선택하고 싶습니다 regsubsets(). olympiadaten (데이터 업로드 : http://www.sendspace.com/file/8e27d0 ) 이라는 데이터 프레임이 있습니다 . 먼저이 데이터 프레임을 첨부 한 다음 분석을 시작합니다. 내 코드는 다음과 같습니다.

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

줄거리의 스크린 샷 :
http://tinypic.com/r/2pq8agy/6

문제는 이제 최고의 모델을 "수동으로"다시 맞추고 살펴보고 싶지만 조정 된 R 제곱의 값이 regsubsets 출력과 동일하지 않습니까? 예를 들어 그래픽에서 가장 간단한 모델을 수행하는 경우와 같은 다른 모델의 경우도 마찬가지입니다.

summary(lm(Gesamt~ExpHealth))

그래픽은 약 0.14의 조정 된 R 제곱을 가져야하지만 출력을 볼 때 0.06435의 값을 얻습니다.

출력은 다음과 같습니다 summary(lm(Gesamt~ExpHealth)).

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271 

내가 뭘 잘못했을지 모르겠지만 도움을 주시면 감사하겠습니다.

마지막으로 몇 가지 질문이 더 있습니다.

  • AIC와 조정에 의한 모델 선택의 차이점은 무엇입니까? R 제곱?
  • 둘 다 적합도를 측정하고 변수 수를 인식하므로 AIC에서 선택한 최고의 모델이 아니며 가장 높은 조정 된 모델도 아닙니다. r 제곱?
  • 12 개의 변수가 있다면 이것은 212 모델의 가능성, 그렇지?
  • 그래서 않습니다 regsubsets()명령은 각 모델을 계산하고 가장 멋진 두 (보여 nbest=2각 크기)?
  • 그렇다면 실제로 '최상의'모델을 얻습니까?
  • 그리고 뒤로 선택을 사용하여 AIC를 수행 할 때 (모든 변수가 포함 된 모델로 시작), 이것이 regsubsets()최고라고 말하는 동일한 모델로 끝나는가?

1
조정의 차이 R2일부 변수에 결 측값이 있기 때문입니다. 나는 당신이 같은 조정을 얻을 것이라고 생각R2모든 변수 (regsubsets의 수식)가 누락되지 않은 데이터의 하위 집합 만 사용하여 모델을 "수동으로"적합하게 조정 한 경우 참고 : regsubset을 사용하여 모델을 선택하는 것은 좋지 않은 방법으로 간주됩니다.
mark999

1
@ mark999 귀하의 의견은 훌륭하며 정답이 맞는 것 같습니다. 답변으로 변환해야합니다.
Michael R. Chernick

@MichaelChernick에게 감사하지만 의견으로 남겨 두는 것을 선호합니다.
mark999

@ user1690846 나는 베드로 Flom에의 대답을보고하는 것이 좋습니다 stats.stackexchange.com/questions/8303/...
mark999

@ mark999 우선 답변 주셔서 감사하지만 왜 이것이 나쁜 방법입니까? AIC를 선택하는 것이 더 좋습니까? na.omit (olympiadaten)을 사용하여 모델을 피팅해야합니까? 사람이 어떤 학습과 답변 매우 감사하겠습니다 다른 질문, 감사에 대한 답변이있는 경우
user1690846

답변:


7

"최상의"피팅 모델을 찾기 위해 모든 서브 세트 또는 최상의 서브 세트 도구를 사용하는 것에 대한 아이디어를 더하기 위해 Darrell Huff의 "통계를 활용하는 방법"이라는 책은 Readers Digest가 담배 연기의 화학 물질 비교를 발표하는 이야기를 들려줍니다. 그들의 기사의 요점은 서로 다른 브랜드 간에는 실질적인 차이가 없었지만 하나의 브랜드는 일부 화학 물질에서 가장 낮았지만 (차이는 의미가 없었습니다) 그 브랜드는 다음을 기반으로 큰 광고 캠페인을 시작했습니다 Readers Digest에 따르면 "최저"또는 "최고"입니다.

모든 부분 집합 또는 최선의 부분 집합 회귀는 비슷하며, 그래프의 실제 메시지는 "최고가 없습니다"가 아니라 실제로 가장 좋은 모형이 없다는 것입니다. 통계적 관점에서 (조정 된 r- 제곱을 사용하여) 모형의 대부분은 거의 동일합니다 (하단의 소수는 위의 것보다 열등하지만 나머지는 모두 유사합니다). 그 표에서 "최고의"모델을 찾으려고하는 것은 담배 회사가 제품이 모두 비슷하다는 것을 보여 주려고 할 때 제품이 최고라고 말하는 것과 같습니다.

다음은 시도 할 것입니다. 데이터 세트에서 한 지점을 임의로 삭제하고 분석을 다시 실행하십시오. 동일한 "최상의"모델을 얻습니까? 아니면 바뀌나요? "최상의"모델이 어떻게 변하는 지 확인하기 위해 매번 다른 지점을 삭제하면서 몇 번 반복하십시오. 데이터의 작은 변화가 다른 "최고"를 제공 할 때 모델이 "최고"라고 주장하는 것이 정말 편합니까? 또한 모델마다 계수가 얼마나 다른지 살펴보십시오. 이러한 변화를 어떻게 해석합니까?

데이터 뒤에있는 질문과 과학을 이해하고 해당 정보를 사용하여 "최상의"모델을 결정하는 것이 좋습니다. 하나의 모델에 포함 된 것만 다른 점은 매우 유사한 2 개의 모델을 고려하십시오.x1 다른 하나는 x2대신에. 와 모델x1 그러나 측정하기에 약간 더 적합합니다 (0.49 대 0.48의 조정 제곱 r) x1 측정하는 동안 수술 및 실험실 결과를 위해 2 주 동안 대기해야 함 x25 분이 걸리고 혈압계가 걸립니다. 조절기 r 제곱에서 여분의 0.01을 얻는 것이 실제로 추가 시간, 비용 및 위험의 가치가 있습니까? 아니면 더 좋은 모델이 더 빠르고 저렴하며 안전한 모델입니까? 과학적 관점에서 어떤 의미가 있습니까? 위의 예에서 군대에 대한 지출 증가가 올림픽 성과를 향상시킬 것이라고 생각하십니까? 또는 더 직접적인 영향을 미치는 다른 지출 변수에 대한 대리 역할을하는 변수의 경우입니까?

고려해야 할 다른 것들로는 몇 가지 좋은 모델을 가져 와서 결합 (모델 평균화)하거나 각 변수를 전부 또는 전부 사용하지 않고 일부 형벌 (Ridge regression, LASSO, elasticnet 등)을 포함하는 것입니다.


좋은 대답입니다! 에 주요 최저 "모델" "질문 데이터와 데 도움이되는 정보가 결정 것을 사용 뒤에 과학을 이해하는 것이 더 낫다" 다음과 모든 단락을.
Andre Silva

2

일부 질문에 대한 답변을 받았으므로 모델 선택에 관한 질문 만 다룰 것입니다. AIC, BIC, Mallow Cp 및 조정 된 R2는 조정 된 척도 또는 기준의 페널티 함수로 과적 합 모델의 문제를 고려한 모델을 비교하고 선택하는 모든 방법입니다. 그러나 페널티 함수가 다른 경우 두 가지 유사한 기준이 최종 모델에 대해 다른 선택을 유발할 수 있습니다. 다른 기준에 대한 최소값은 다른 모델에서 발생할 수 있습니다. 이것은 AIC와 BIC에 의해 선택된 모델을 볼 때 꽤 자주 관찰되었습니다.

난 당신이 최고의 모델이 무슨 뜻인지 모르겠어요. 각 기준은 기본적으로 다른 최고 정의를 제공합니다. 정보, 엔트로피, 확률 론적 복잡성, 설명 된 분산 비율 등의 측면에서 모델을 가장 잘 호출 할 수 있습니다. 특정 crtierion을 다루고 있고 가능한 모든 모델에 대해 AIC에 대한 실제 최소값을 가장 잘 캡처한다는 의미라면 모든 모델 (예 : 변수에 대한 모든 서브 세트 선택)을 확인해야만 보장 할 수 있습니다. 스텝 업, 스텝 다운 및 스텝 방식 절차가 항상 특정 crtierion의 관점에서 최상의 모델을 찾는 것은 아닙니다. 단계적 회귀 분석을 통해 다른 모델을 시작하여 다른 답변을 얻을 수도 있습니다. 나는 Frank Harrell이 이것에 대해 많이 말할 것이라고 확신합니다.

더 많은 것을 배우기 위해, 모델 / 서브셋 선택에 관한 몇 가지 좋은 책이 있으며 다른 게시물에서 여기를 참조했습니다. SpringerBrief 시리즈에서 Springer와의 Lacey Gunter의 논문도 곧 나올 것입니다. 나는 그 책에서 그녀와 공동 저자였습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.