이항 회귀 분석에 대한 R의 출력 해석


38

나는 이항 데이터 테스트를 통해 이것에 대해 아주 새로운 것이지만 하나를 수행해야했지만 이제 결과를 해석하는 방법을 잘 모르겠습니다. 반응 변수 인 y- 변수는 이항이고 설명 요소는 연속적입니다. 이것이 결과를 요약 할 때 얻은 것입니다.

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

내가 여기에 얻지 못한 많은 것들이 있는데, 이것이 실제로 무엇을 말합니까?

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

그리고 AIC와 Fisher Scoring 반복 횟수는 무엇을 의미합니까?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

그리고 여기 이것이 무엇을 의미합니까?

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 

6
귀하의 질문은 매우 광범위하기 때문에 "이항 회귀 분석은 어떻게 해석합니까?" -주제에 대한 소개 텍스트를 선택하는 것이 좋습니다. Agresti의 범주 형 데이터 분석 소개 는 매우 접근 하기 쉽습니다 .
Reinstate Monica

2
여기에 대답하기에는 너무 광범위 할 수 있습니다. @ user777이 말했듯이 좋은 텍스트를 참조하는 것이 좋습니다. Agresti가 좋다고 동의합니다. Hosmer & Lemeshow 도 좋습니다. 짧고 자유로운 것을 원한다면 (자체 플러그 경고) 로지스틱 회귀에 대한 나의 소개를 참조하십시오 .
Peter Flom-Monica Monica 복원

좋아, 빠른 답변 주셔서 감사합니다, 나는
Agresti를

4
나는이 질문이 너무 광범위해서 대답하기 어렵다고 생각하지 않습니다. 그것은 본질적 으로 주제에 대해 지속적으로 고려 된 rs-lm-output 해석 의 로지스틱 회귀 버전 인 것 같습니다 .
gung-복직 모니카

1
R이 화면에 분출 한 것을 해석하는 것에 관한 질문 이라면 @gung과 함께 합니다. 모호성이있는 곳은 "의미"란 무엇입니까? OP가 계수가 로그 확률의 척도에있는 값을 가진 모델의 추정 된 값이라는 것을 알게되면이 Q는 정상입니다. OP가 이것에 만족하지 않고 데이터, 모델 등의 관점에서 그 의미의 설명이 필요한 경우, 이것은 몇 가지 질문 중 하나에 불과하다는 점에서 너무 광범위합니다.
복원 Monica Monica-G. Simpson

답변:


74

당신이 한 일은 로지스틱 회귀 입니다. 이것은 기본적으로 모든 통계 소프트웨어에서 수행 할 수 있으며 출력은 비슷합니다 (적어도 내용은 다르지만 프레젠테이션은 다를 수 있음). UCLA의 우수한 통계 도움말 웹 사이트에서 R사용하여 로지스틱 회귀에 대한 안내서가 있습니다. 당신이 이것에 익숙하지 않다면, 내 대답은 여기에 있습니다 : 로짓과 프로 빗 모델의 차이점은 LR이 무엇인지 이해하는 데 도움이 될 수 있습니다 (다른 맥락으로 작성되었지만).

두 가지 모델이 제공되는 것 같습니다. 나는 주로 상위 모델에 중점을 둘 것입니다. 또한, 복사하고 내가 스왑 있도록, 모델이나 출력을 붙여에서 오류가 있었던 것으로 보인다 leaves.presenceArea모델과는 일치하도록 출력에. 다음은 내가 참조하는 모델입니다 ( (link="logit"), 추가 한 참고 사항 은 다음을 의미합니다 family=binomial. ? glm? family 참조 ).

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

이 출력을 살펴 보겠습니다 (아래의 두 번째 줄에서 변수 이름을 변경했음을 유의하십시오 Coefficients).

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

선형 (OLS) 회귀 잔차가 있는 것처럼 로지스틱 회귀 및 기타 일반화 된 선형 모형에 잔차가있을 수 있습니다. 그러나 응답 변수가 연속적이지 않으면 더 복잡합니다. GLiM은 5 가지 유형의 잔차를 가질 수 있지만 표준으로 나오는 것은 이탈 잔차입니다. ( 일탈 내가 여기에 간단한 수 있습니다 있도록 일탈 잔차는 고급이다,이 논의에 따라 다소 어려운 경우, 너무 많이, 당신이 그것을 건너 뛸 수 있습니다 걱정하지 것이다) :

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

모형에 사용 된 모든 데이터 점에 대해 해당 점과 관련된 편차가 계산됩니다. 각 점에 대해이 작업을 수행하면 이러한 잔차 세트가 있으며 위 출력은 단순히 분포에 대한 비모수 적 설명입니다.


다음으로 사람들이 주로 관심을 갖는 공변량에 대한 정보를 봅니다.

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

이와 같은 간단한 로지스틱 회귀 모형의 경우 공변량 ( Area여기)과 절편 (때로는 '일정한'이라고도 함) 이 하나뿐입니다 . 다중 로지스틱 회귀 분석이있는 경우 아래에 공변량이 추가로 표시되지만 결과 해석은 동일합니다. Estimate두 번째 행 아래 에는 왼쪽에 나열된 변수와 관련된 계수가 있습니다. 1 단위가 높으면 로그 확률 leaves.presence이 증가 할 것으로 예상되는 양 Area입니다. 의 로그 확률 leaves.presence경우 Area인 단지 첫 번째 행 위이다. (로그 확률에 충분히 익숙하지 않은 경우 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다. 로지스틱 회귀 분석에서 확률 예측 대 확률 비율의 해석0.) 다음 열에 는 이러한 추정치와 관련된 표준 오류 가 표시 됩니다. 즉, 연구가 동일하게 재실행되었지만 새로운 데이터로 계속해서 반복되는 경우 이러한 추정치가 평균적으로 얼마나 많이 튀어 나올지에 대한 추정치입니다. (표준 오차의 개념에 익숙하지 않은 경우 선형 회귀에서 계수 표준 오차를 해석하는 방법)에서 내 대답을 읽는 데 도움이 될 수 있습니다 . 추정값을 표준 오차로 나누면 충분히 큰 표본이 ​​정규 분포로 추정되는 몫을 얻습니다. 이 값은 아래에 나열되어 z value있습니다. 아래 Pr(>|z|)는 양측 p- 값입니다.표준 정규 분포의 z- 값에 해당합니다. 마지막으로, 전통적으로 중요한 별들이 있습니다 (그리고 계수 표 아래의 키를 주목하십시오).


Dispersion줄은 기본적으로 GLiM과 함께 인쇄되지만 여기에 많은 정보를 추가하지는 않습니다 (예 : 카운트 모델의 경우 더 중요합니다). 우리는 이것을 무시할 수 있습니다.


마지막으로 모델과 적합도에 대한 정보를 얻습니다.

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

missingness이 종종 없어요. 당신이하는 중 314 개 관찰을했기 때문에 그것은 여기에 표시 leaves.presence, Area또는 둘 모두가 누락되었다. 이러한 부분 관측은 모형 적합에 사용되지 않았습니다.

Residual deviance(가) 반면, 전체 촬영 모델의 적합의 부족의 측정 Null deviance만이 절편을 포함 축소 모델 같은 조치입니다. 이 두 가지와 관련된 자유도는 하나만 다릅니다. 모형에 공변량이 하나만 있으므로 하나의 추가 모수 ( Estimatefor Area) 만 추정 되므로 하나의 추가 자유도 만 소비되었습니다. 이 두 값은 모형의 전체 검정을 수행하는 데 사용될 수 있으며, 이는 다중 선형 회귀 모형과 함께 제공 되는 전역 검정과 유사합니다 . 공변량이 하나뿐이므로 이러한 테스트는 흥미롭지 않습니다. F

AIC는 계정에 데이터에 맞게 모델의 능력을 필요 적합도의 또 다른 척도이다. 이것은 두 모델을 비교할 때 매우 유용하지만 더 유연하고 데이터에 더 잘 맞는다는 장점만으로도 적합합니다. 모델이 하나뿐이므로 정보가 없습니다.

참조 Fisher scoring iterations는 모형 추정 방법과 관련이 있습니다. 폐쇄 형 방정식을 풀면 선형 모형이 적합 할 수 있습니다. 불행히도 이는 로지스틱 회귀를 포함한 대부분의 GLiM에서 수행 할 수 없습니다. 대신 반복적 접근 방식 ( 기본적으로 Newton-Raphson 알고리즘 )이 사용됩니다. 느슨하게, 모형은 추정치에 대한 추측에 근거하여 적합합니다. 그런 다음 알고리즘은 다른 추정값을 대신 사용하여 적합도가 개선되는지 확인합니다. 그렇다면 해당 방향으로 이동 한 다음 (예 : 더 높은 추정값을 사용하여) 모형을 다시 적합시킵니다. 알고리즘을 다시 움직이면 추가적인 개선 효과가 있다고 인식하지 않으면 알고리즘이 중지됩니다. 이 줄은 프로세스가 중지되고 결과를 출력하기 전에 반복 횟수를 나타냅니다.



두 번째 모델 및 출력 결과와 관련하여 결과를 표시하는 다른 방법 일뿐입니다. 구체적으로

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

위에서 논의한 것과 동일한 종류의 추정치입니다 (다른 모델에서는 있지만 보충 정보는 적음).


1

전화 : 이것은 당신이 그 함수를 호출 한 것입니다. R에 입력 한 것과 똑같은 코드가됩니다. 오타가 있는지 확인하는 데 도움이 될 수 있습니다.

(Deviance) 잔차 : 로지스틱 회귀 분석에서는이를 무시할 수 있습니다. 포아송 또는 선형 회귀 분석의 경우 정규 분포가 다소 분산되기를 원합니다 (상위 2 개의 진단 플롯이 확인하는 것과 동일 함). 1Q와 3Q의 절대 값이 서로 가깝고 (중간) 있는지, 중앙값이 0에 가까운 지 확인하여이 값을 확인할 수 있습니다. 평균이 항상 0이므로 표시되지 않습니다. 데이터에 약간의 왜곡이있을 수 있습니다. (이것은 진단 플롯에도 나타납니다!)

계수 : 이것은 출력의 고기입니다.

  • 절편 : 포아송 및 선형 회귀 분석의 경우 이는 모든 입력이 0 일 때 예측 된 출력입니다. 로지스틱 회귀 분석의 경우이 값은 0에서 멀어 질수록 각 클래스의 관측치 수의 차이가 커집니다. 표준 오차는 우리가 이것에 대해 얼마나 확실하지 않은지 (낮을수록 좋습니다). 이 경우 우리의 절편이 0에서 멀고 표준 오류가 절편보다 훨씬 작기 때문에 클래스 중 하나 (실패 또는 실패하지 않음)에 더 많은 관측치가 있음을 확신 할 수 있습니다. (이 경우에는 "실패하지 않았습니다"입니다.)

  • 다양한 입력 (각 입력은 서로 다른 라인에 있음) :이 추정치는이 입력을 1 씩 증가시킬 때마다 출력이 얼마나 많이 변경 될 것으로 생각되는지를 나타냅니다. 추정값이 클수록이 입력 변수가 출력에 미치는 영향이 커집니다. 표준 오차는 우리가 얼마나 확신하는지입니다. 일반적으로 입력 값이 표준 오차가 추정치의 1/10이라는 것을 알 수 있습니다. 따라서이 경우에는 요격이 중요합니다.

  • 서명. 코드 : 이것은 각각의 : 입력과 절편의 중요성에 대한 열쇠입니다. 하나의 모델 만 데이터에 적합 할 경우에만 정확합니다. 다시 말해, 관심있는 변수를 처음부터 사용하는 경우 실험 데이터에 유용하며 데이터 분석이나 변수 선택에 유익하지 않습니다.

    잠깐, 왜 우리는 통계적 유의성을 사용할 수 없습니까? 일반적으로 권장하지는 않습니다. 데이터 과학에서는 종종 동일한 데이터 세트를 사용하여 여러 모델을 피팅하여 최상의 모델을 선택하려고합니다. 동일한 데이터 세트에서 통계적 유의성에 대해 둘 이상의 테스트를 실행 한 경우 p- 값을 보완하여 보충해야합니다. 이런 식으로 생각할 수 있습니다. p = 0.05 미만의 결과를 수락하기로 결정하면 기본적으로 20 번에 하나 잘못되었다고 말하는 것입니다. 그러나 5 번의 테스트를 수행하고 각각에 대해 1/20 확률로 잘못 될 가능성이 있다면, 적어도 해당 테스트 중 하나에서 1/4이 잘못되었을 가능성이 있습니다 ... 어느 쪽인지 모릅니다. 당신은 그것을 수정할 수 있습니다 (p- 값을 곱하면 사전에 수행 할 테스트 수만큼 중요하게 받아 들일 수 있지만 실제로 p- 값을 사용하지 않는 것이 일반적으로 더 쉽다는 것을 알았습니다.

(이항 군의 분산 모수는 1로 설정 됨) : 포아송 및 이항 (로지스틱) 회귀에 대해서만 표시됩니다. 모델에 맞게 추가 스케일링 매개 변수가 추가되었음을 알려줍니다. 당신은 그것을 무시할 수 있습니다.

널 이탈 : 널 이탈은 절편 만 사용하여 출력을 얼마나 잘 예측할 수 있는지 알려줍니다. 작을수록 좋습니다.

잔차 이탈 : 잔차 이탈은 절편과 입력을 사용하여 출력을 얼마나 잘 예측할 수 있는지 알려줍니다. 작을수록 좋습니다. 널 이탈과 잔차 이탈의 차이가 클수록 입력 변수가 출력 변수를 예측하는 데 더 도움이됩니다.

AIC : AIC는 "Akaike 정보 기준"이며 모델이 데이터의 패턴을 얼마나 잘 설명하고 있는지 추정 한 것입니다. 주로 동일한 데이터 세트에서 학습 된 모델을 비교하는 데 사용됩니다. 모델 중에서 선택해야하는 경우 AIC가 낮은 모델이 데이터의 분산을 설명하는 데 더 적합합니다.

Fisher 점수 반복 횟수 : 이것은 모델에 얼마나 오래 걸 렸는지 측정 한 것입니다. 안전하게 무시할 수 있습니다.

나는 더 많은 것을 배우기 위해이 순례를 제안합니다. https://www.kaggle.com/rtatman/regression-challenge-day-5

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.