로지스틱 회귀 모형 변수의 p- 값 의미


9

그래서 나는 R에서 로지스틱 회귀 모델을 사용하고 있습니다. 통계에 익숙하지 않지만 지금까지 회귀 모델에 대해 약간의 이해가 있다고 생각하지만 여전히 나를 귀찮게하는 것이 있습니다.

링크 된 그림을 보면 내가 만든 예제 모델에 대한 요약 R 인쇄가 표시됩니다. 데이터 세트의 이메일이 다시 발견되거나 (이진 변수 isRefound) 데이터 세트와 관련이있는 두 개의 변수가 포함 된 경우 모델에서 예측하려고합니다 isRefound. 즉 next24, next7days이 또한 바이너리입니다. 로그의 현재 지점에서 24 시간 / 다음 7 일

높은 p- 값은이 변수가 모델 예측에 미치는 영향이 매우 무작위 적이라는 것을 나타내야합니다. 이를 바탕 으로이 두 변수가 계산 공식에서 제외 될 때 모델 예측의 정밀도가 10 % 아래로 떨어지는 이유를 이해하지 못합니다. 이러한 변수가 그다지 중요하지 않은 경우 왜 모델에서 변수를 제거하면 큰 영향을 미칩니 까?

감사합니다 사전에 Rickyfox

여기에 이미지 설명을 입력하십시오


편집하다:

먼저 next24 만 제거했는데, 이것은 coef가 매우 작기 때문에 영향이 적습니다. 예상대로 약간 변경되었습니다-사진을 업로드하지 않을 것입니다.

다음 날을 제거하면 모델에 큰 영향을 미쳤습니다. AIC 200k 증가, 정밀도 16 % 감소 및 73 % 감소

여기에 이미지 설명을 입력하십시오


1
isRefound ~ day + next24다른 모든 변수 가 있고 생략하면 어떻게 되나요?
smillig

답변:


11

기본적으로 다중 공선 성 문제가있는 것 같습니다. 이 웹 사이트 또는 wikipedia에서 시작하여 이에 대한 많은 자료가 있습니다.

간단히 말해 두 예측 변수는 실제로 결과와 관련이있는 것으로 보이지만 서로 밀접한 상관 관계가있을 수 있습니다 (두 개 이상의 변수를 사용하면 강한 이변 량 상관 관계없이 다중 공선 성 문제가 발생할 수 있음). 물론 이것은 의미가 있습니다. 24 시간 이내에 클릭 한 모든 이메일은 7 일 이내에 (정의에 따라) 클릭되었으며 대부분의 이메일은 전혀 클릭하지 않은 것입니다 (24 시간이 아니라 7 일이 아닌).

이것이 제시 한 결과에서 보여주는 한 가지 방법은 관련 계수에 대해 엄청나게 큰 표준 오류 / CI를 사용하는 것입니다 (bigglm을 사용하고 있다는 사실과 작은 계수조차 매우 중요하다는 사실로 판단하면 표본 크기가 충분해야합니다. 좋은 견적을 얻으려면). 이러한 유형의 문제를 감지하기 위해 수행 할 수있는 다른 작업 : 쌍별 상관 관계를 살펴보고 의심되는 변수 중 하나만 제거하고 (@Nick Sabbe에서 제안한대로) 두 변수의 의미를 함께 테스트합니다.

더 일반적으로, 높은 P-값은 할 수 없습니다 (효과가 작거나 임의 만 계수가 또한 매우 클 수 0 다르다는 것을 증거가 없다, 그냥 모르는 것을 의미 중 하나를 샘플 때문에 크기가 너무 작거나 모델에 다른 문제가 있기 때문에).


1
게시 한 새로운 결과는 다른 변수도 포함 될 수 있음을 나타냅니다 (또는 보지 못한 다른 문제가 있음). 그렇지 않으면 두 변수 중 하나만 포함되면 SE가 훨씬 낮아질 것으로 예상하기 때문에 .
Gala

네, 이미 눈치 채 셨지만 감사합니다 나중에 편집하여 관심이 있다면이 원인을 알려줄 수 있습니다.
deemel
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.