당신이 한 일은 로지스틱 회귀 입니다. 이것은 기본적으로 모든 통계 소프트웨어에서 수행 할 수 있으며 출력은 비슷합니다 (적어도 내용은 다르지만 프레젠테이션은 다를 수 있음). UCLA의 우수한 통계 도움말 웹 사이트에서 R 을 사용하여 로지스틱 회귀에 대한 안내서가 있습니다. 당신이 이것에 익숙하지 않다면, 내 대답은 여기에 있습니다 : 로짓과 프로 빗 모델의 차이점은 LR이 무엇인지 이해하는 데 도움이 될 수 있습니다 (다른 맥락으로 작성되었지만).
두 가지 모델이 제공되는 것 같습니다. 나는 주로 상위 모델에 중점을 둘 것입니다. 또한, 복사하고 내가 스왑 있도록, 모델이나 출력을 붙여에서 오류가 있었던 것으로 보인다 leaves.presence
과 Area
모델과는 일치하도록 출력에. 다음은 내가 참조하는 모델입니다 ( (link="logit")
, 추가 한 참고 사항 은 다음을 의미합니다 family=binomial
. ? glm 및 ? family 참조 ).
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
이 출력을 살펴 보겠습니다 (아래의 두 번째 줄에서 변수 이름을 변경했음을 유의하십시오 Coefficients
).
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
선형 (OLS) 회귀 잔차가 있는 것처럼 로지스틱 회귀 및 기타 일반화 된 선형 모형에 잔차가있을 수 있습니다. 그러나 응답 변수가 연속적이지 않으면 더 복잡합니다. GLiM은 5 가지 유형의 잔차를 가질 수 있지만 표준으로 나오는 것은 이탈 잔차입니다. ( 일탈 내가 여기에 간단한 수 있습니다 있도록 일탈 잔차는 고급이다,이 논의에 따라 다소 어려운 경우, 너무 많이, 당신이 그것을 건너 뛸 수 있습니다 걱정하지 것이다) :
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
모형에 사용 된 모든 데이터 점에 대해 해당 점과 관련된 편차가 계산됩니다. 각 점에 대해이 작업을 수행하면 이러한 잔차 세트가 있으며 위 출력은 단순히 분포에 대한 비모수 적 설명입니다.
다음으로 사람들이 주로 관심을 갖는 공변량에 대한 정보를 봅니다.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
이와 같은 간단한 로지스틱 회귀 모형의 경우 공변량 ( Area
여기)과 절편 (때로는 '일정한'이라고도 함) 이 하나뿐입니다 . 다중 로지스틱 회귀 분석이있는 경우 아래에 공변량이 추가로 표시되지만 결과 해석은 동일합니다. Estimate
두 번째 행 아래 에는 왼쪽에 나열된 변수와 관련된 계수가 있습니다. 1 단위가 높으면 로그 확률 leaves.presence
이 증가 할 것으로 예상되는 양 Area
입니다. 의 로그 확률 leaves.presence
경우 Area
인 단지 첫 번째 행 위이다. (로그 확률에 충분히 익숙하지 않은 경우 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다. 로지스틱 회귀 분석에서 확률 예측 대 확률 비율의 해석0.) 다음 열에 는 이러한 추정치와 관련된 표준 오류 가 표시 됩니다. 즉, 연구가 동일하게 재실행되었지만 새로운 데이터로 계속해서 반복되는 경우 이러한 추정치가 평균적으로 얼마나 많이 튀어 나올지에 대한 추정치입니다. (표준 오차의 개념에 익숙하지 않은 경우 선형 회귀에서 계수 표준 오차를 해석하는 방법)에서 내 대답을 읽는 데 도움이 될 수 있습니다 . 추정값을 표준 오차로 나누면 충분히 큰 표본이 정규 분포로 추정되는 몫을 얻습니다. 이 값은 아래에 나열되어 z value
있습니다. 아래 Pr(>|z|)
는 양측 p- 값입니다.표준 정규 분포의 z- 값에 해당합니다. 마지막으로, 전통적으로 중요한 별들이 있습니다 (그리고 계수 표 아래의 키를 주목하십시오).
이 Dispersion
줄은 기본적으로 GLiM과 함께 인쇄되지만 여기에 많은 정보를 추가하지는 않습니다 (예 : 카운트 모델의 경우 더 중요합니다). 우리는 이것을 무시할 수 있습니다.
마지막으로 모델과 적합도에 대한 정보를 얻습니다.
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
줄 missingness
이 종종 없어요. 당신이하는 중 314 개 관찰을했기 때문에 그것은 여기에 표시 leaves.presence
, Area
또는 둘 모두가 누락되었다. 이러한 부분 관측은 모형 적합에 사용되지 않았습니다.
이 Residual deviance
(가) 반면, 전체 촬영 모델의 적합의 부족의 측정 Null deviance
만이 절편을 포함 축소 모델 같은 조치입니다. 이 두 가지와 관련된 자유도는 하나만 다릅니다. 모형에 공변량이 하나만 있으므로 하나의 추가 모수 ( Estimate
for Area
) 만 추정 되므로 하나의 추가 자유도 만 소비되었습니다. 이 두 값은 모형의 전체 검정을 수행하는 데 사용될 수 있으며, 이는 다중 선형 회귀 모형과 함께 제공 되는 전역 검정과 유사합니다 . 공변량이 하나뿐이므로 이러한 테스트는 흥미롭지 않습니다. F
AIC는 계정에 데이터에 맞게 모델의 능력을 필요 적합도의 또 다른 척도이다. 이것은 두 모델을 비교할 때 매우 유용하지만 더 유연하고 데이터에 더 잘 맞는다는 장점만으로도 적합합니다. 모델이 하나뿐이므로 정보가 없습니다.
참조 Fisher scoring iterations
는 모형 추정 방법과 관련이 있습니다. 폐쇄 형 방정식을 풀면 선형 모형이 적합 할 수 있습니다. 불행히도 이는 로지스틱 회귀를 포함한 대부분의 GLiM에서 수행 할 수 없습니다. 대신 반복적 접근 방식 ( 기본적으로 Newton-Raphson 알고리즘 )이 사용됩니다. 느슨하게, 모형은 추정치에 대한 추측에 근거하여 적합합니다. 그런 다음 알고리즘은 다른 추정값을 대신 사용하여 적합도가 개선되는지 확인합니다. 그렇다면 해당 방향으로 이동 한 다음 (예 : 더 높은 추정값을 사용하여) 모형을 다시 적합시킵니다. 알고리즘을 다시 움직이면 추가적인 개선 효과가 있다고 인식하지 않으면 알고리즘이 중지됩니다. 이 줄은 프로세스가 중지되고 결과를 출력하기 전에 반복 횟수를 나타냅니다.
두 번째 모델 및 출력 결과와 관련하여 결과를 표시하는 다른 방법 일뿐입니다. 구체적으로
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
위에서 논의한 것과 동일한 종류의 추정치입니다 (다른 모델에서는 있지만 보충 정보는 적음).