R에서 drop1 출력 해석


14

R에서 drop1명령은 깔끔한 것을 출력합니다.
이 두 명령은 약간의 출력을 가져옵니다.
example(step)#-> swiss
drop1(lm1, test="F")

광산은 다음과 같습니다.

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

이 모든 것이 무엇을 의미합니까? "별"은 어떤 입력 변수를 유지할지 결정하는 데 도움이된다고 가정합니다. 위의 결과를 보면 "Examination"변수를 버리고 "Education"변수에 중점을두고 싶습니다. 이것이 올바른 해석입니까?

또한 AIC 값이 낮을수록 좋습니다.

에드 아래의 커뮤니티 Wiki 답변을 참고하여이 출력을 명확하게하기 위해 추가하십시오.


7
R의 도움말은 함수 사용법을 설명하기위한 것입니다. 통계에 관한 강좌가 아닙니다. 그리고 일반적으로 R 도움말 페이지는 내가 아는 모든 오픈 소스 패키지에서 가장 완벽하고 편리하다고 생각합니다. 그리고 그 문제에 대한 패키지를 지불합니다. SPSS와 SAS는 "진리를위한 지침"으로서 반 진실과 완전한 논 센스를 가진 많은 점보 점보를 제공합니다.
Joris Meys

1
이 질문은 downvoted되었습니다. 나는 +1을 줄 의도는 없었지만 이제는 투표를하는 것이 그리 건설적이지 않다고 생각합니다. (1) OP는 이것이 숙제임을 분명히하고 R 내장 데이터 세트를 사용합니다. (2) step()이 글을 쓰는 시점에서 (2) 관련 질문 에 +2로 평가되었습니다 (그래서 왜?!), (3) OP는 @Joris의 응답의 유용성을 인정했습니다.
chl

@chl : R 도움말 페이지 :-)와 관련하여 발가락이 민감한 유일한 사람은 아닙니다. 하지만 전적으로 당신과 동의합니다. 이 질문은 타당하고 분명한 방법으로 요청되었으므로 질문을 내리는 이유는 전혀 없습니다.
Joris Meys

Heh, 나는 도움으로 내 snide로 당신의 발가락을 밟아서 미안합니다. 커맨드 라인이있는 것에 관해서는 참을성이 없습니다. 난 그렇게 이상해, 알아 당신은 나를 부르는 첫 번째 사람이 아닐 것입니다 :) 나는 이곳을 좋아합니다. 사람들은 정직합니다.
gakera

거기서 우리는 R과 R의 도움을 옹호하는 사람들과 맞지 않도록 질문을 편집했습니다.
gakera

답변:


10

drop1AIC 기준을 기반으로 모델을 비교하고 옵션 test="F"을 사용할 때 도움말 파일에 설명 된대로 "type II ANOVA"를 추가 합니다 . 연속 변수 만있는 summary(lm1)한 F- 값은 T- 값의 제곱이므로이 표는와 정확히 같습니다 . P- 값은 정확히 같습니다.

그래서 어떻게해야합니까? 정확히 그런 식으로 해석하십시오. 해당 항이없는 모형이 해당 항이있는 모형과 "상당히"다른 방식으로 표현됩니다. 여기서의 중요성은 대부분의 사람들이 생각하는 것으로 해석 될 수 없기 때문에 ""를 크게 고려하십시오. (멀티 테스트 문제와 모든 ...)

AIC에 관해서는 낮을수록 좋습니다. AIC는 변수가 아닌 모형 에 사용되는 값입니다. 따라서 해당 출력에서 ​​가장 좋은 모델은 변수 검사가없는 모델입니다.

AIC와 F 통계량의 계산은 R 함수 AIC(lm1)resp와 다릅니다 . anova(lm1). 에 대한 AIC()정보는의 도움말 페이지에 extractAIC()있습니다. 이 anova()기능의 경우 유형 I과 유형 II SS가 동일하지 않은 것이 분명합니다.

나는 무례하지 않으려 고 노력하고 있지만 도움말 파일에 설명 된 내용을 이해하지 못하면 처음에는 기능을 사용해서는 안됩니다. 단계적 회귀는 매우 까다로워서 p- 값을 가장 심오한 방식으로 위태롭게합니다. 다시 p- 값에 근거 하지 마십시오 . 모델은 다른 방식이 아니라 가설을 반영해야합니다.


1
나는 "이미하고있는 일을 이해하지 못한다면, 그것을 배우려고하지 말아야합니다 ..."라는이 정서를 좋아합니다. 이것은 R 도움말에서 취한 접근법이기도합니다. 계속됩니다. 나는 이것이 다른 무언가의 시작이되기를 바랐다.
gakera

그러나 나는 당신의 대답의이 부분을 사용할 수 있습니다. 나에게 이것은 Pr (F) 값이 각 항의 의미임을 의미하며 작은 값은이 변수가 중요하다는 것을 의미합니다. 따라서 좋은 모델에는 별이없는 변수가 아닌 "***"변수가 포함되어야합니다.
gakera

4
@gakera : 당신은 저를 잘못 얻었다. 당신이하고있는 일을 이해하지 못하면, 그것을 사용하기 전에 반드시 그것을 배우려고 노력해야 합니다 . 그것은 통계를 읽고 과정을 따르는 것을 의미합니다. 따라서 좋은 모델에는 가설에 공식화 된 변수가 포함되어야합니다. "***"변수에 기반을 둔 경우 먼저 모델링에 대한 철저한 과정이 필요합니다. 당신은 분명히 내 마지막 의견을 이해하지 못했습니다. 직접 연락해서 죄송합니다. 개인적이지 않은 일.
Joris Meys

@ gakera : 중요한 점을 명확히하기 위해 대답을 업데이트했습니다. 주로 사용할 수 있다고 생각한 부분을 잘못 해석했기 때문입니다.
Joris Meys

나는 이것을 배우면서 배우고 있습니다. 이것은 결국 숙제입니다. 내가 이것을 올바르게 얻지 않으면 아무도 죽지 않을 것입니다-물고기는 이미 죽었습니다 : P 지금까지 도움을 주셔서 감사하고 걱정하지 마십시오. 인터넷에서 처음으로 :)
gakera

4

참고로, 이들은 표에 포함 된 값입니다. 자유도를
Df 참조 하십시오. "자유도는 통계의 최종 계산에서 자유롭게 변하는 값의 수입니다."

Sum of Sq열에 지칭 제곱의 합 (또는 더 정확하게 제곱 편차의 합 ). 간단히 말해 이것은 각 개별 값이 해당 값의 전체 평균에서 벗어난 양을 측정 한 것입니다.
RSS는 IS 사각형의 잔여 합계 . 이는 종속 (또는 출력) 변수의 예측 값이 세트의 각 데이터 포인트에 대한 실제 값 (또는 데이터 테이블의 각 "라인")의 실제 값과 얼마나 다른지 측정합니다.

AIC는 IS 아카 이케 정보 기준 일반적으로 짧은, "설명이 너무 복잡"으로 간주되고 있지만, 추정 된 통계 모델의 적합도를 측정. 더 자세한 내용이 필요하면 단어가있는 죽은 나무 (즉, 책)로 돌아 가야합니다. 또는 Wikipedia 및 해당 리소스.

F value라고 어떻게 수행하는 데 사용되는 F-검사 하고 그것이 유래으로부터 Pr(F)F 값인지 가능성을 (또는 예상되는 = 잠) 설명 값. 0에 가까운 Pr (F) 값 (로 표시 ***)은 좋은 모델에 포함시키는 것이 중요한 방식으로 입력 변수를 나타냅니다. 그렇습니다.

이러한 모든 값은 drop1명령과 관련하여 전체 모델 (모든 입력 변수 포함)을 출력 테이블의 각 행당 하나의 특정 변수를 제거한 결과 모델과 비교하도록 계산됩니다.

이제 이것이 개선 될 수 있다면 자유롭게 추가하거나 문제를 명확히하십시오. 내 목표는 R 명령의 출력에서 ​​실제 의미까지 더 나은 "역방향 조회"참조를 명확히하고 제공하는 것입니다.


R을 사용한 @gakera Practical Regression 및 Anova 는 선형 모델과 변수 / 모델 선택과 관련된 방법을 이해하기위한 좋은 출발점입니다. @Joris가 지적한 것처럼 단계적 회귀는 만병 통치약이 아닙니다.
chl

아, 왜 게시 할 수 없는지에 대한 면책을 유지하면서 @chl 링크를 추가해 주셔서 감사합니다. 당신은 내가 빨아 : D에 동의해야합니다
gakera

1
@gakera 편집 당 하나 이상의 링크를 추가하려면 더 많은 담당자가 필요하다고 생각합니다. Q & A 웹 사이트에서 시작할 때 이것이 유쾌하지 않다는 것을 이해할 수 있습니다. 나는 당신이 당신의 마지막 문장을 스스로 제거 할 것이라고 가정했습니다. 다른 한편으로, 나는 당신이 당신의 질문에 대한 답변을 제공하기 위해 너무 많은 투표를 기 대해서는 안된다고 생각합니다. 왜냐하면 그것은 일종의 요약이기 때문입니다 (유용하지만).
chl

나는 upvotes (이렇게 Reddit : P)를 위해 이것을하고 있지 않습니다. 유용한 요약은 내가 원하는 것입니다-주로 나 자신을 위해 있지만 아마도 다른 사람들에게도 유용합니다.
gakera

@gakera 나는 이것이 upvotes를 얻기위한 것이 아니라고 확신합니다. 대부분의 경우 Google은 추가 정보 나 모순되는 정보를 추가하지 않을 때 자체 위키를 커뮤니티 위키 (CW)로 설정했습니다. 이것은 다른 사람들의 반응을 요약하거나 집계하는 중립적 인 방법입니다.
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.