그래서 나는 R에서 로지스틱 회귀 모델을 사용하고 있습니다. 통계에 익숙하지 않지만 지금까지 회귀 모델에 대해 약간의 이해가 있다고 생각하지만 여전히 나를 귀찮게하는 것이 있습니다.
링크 된 그림을 보면 내가 만든 예제 모델에 대한 요약 R 인쇄가 표시됩니다. 데이터 세트의 이메일이 다시 발견되거나 (이진 변수 isRefound
) 데이터 세트와 관련이있는 두 개의 변수가 포함 된 경우 모델에서 예측하려고합니다 isRefound
. 즉 next24
, next7days
이 또한 바이너리입니다. 로그의 현재 지점에서 24 시간 / 다음 7 일
높은 p- 값은이 변수가 모델 예측에 미치는 영향이 매우 무작위 적이라는 것을 나타내야합니다. 이를 바탕 으로이 두 변수가 계산 공식에서 제외 될 때 모델 예측의 정밀도가 10 % 아래로 떨어지는 이유를 이해하지 못합니다. 이러한 변수가 그다지 중요하지 않은 경우 왜 모델에서 변수를 제거하면 큰 영향을 미칩니 까?
감사합니다 사전에 Rickyfox
편집하다:
먼저 next24 만 제거했는데, 이것은 coef가 매우 작기 때문에 영향이 적습니다. 예상대로 약간 변경되었습니다-사진을 업로드하지 않을 것입니다.
다음 날을 제거하면 모델에 큰 영향을 미쳤습니다. AIC 200k 증가, 정밀도 16 % 감소 및 73 % 감소
isRefound ~ day + next24
다른 모든 변수 가 있고 생략하면 어떻게 되나요?