다중 로지스틱 회귀 분석에서 유의 한 예측 변수가 중요하지 않음


11

두 개의 개별 (일 변량) 로지스틱 회귀 모델에서 변수를 분석하면 다음과 같은 결과가 나타납니다.

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

그러나 단일 다중 로지스틱 회귀 모델에 입력하면 다음과 같은 결과를 얻습니다.

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

두 예측 변수 모두 이분법 적 (범주 형)입니다. 다중 공선 성을 확인했습니다.

충분한 정보를 제공했는지 확실하지 않지만 예측 변수 1이 유의미한 것에서 중요하지 않은 것으로 변한 이유와 다중 회귀 모형에서 승산 비가 왜 다른지 이해할 수 없습니다. 누구나 무슨 일이 일어나고 있는지에 대한 기본 설명을 제공 할 수 있습니까?


2
다변량은 일반적으로 여러 종속 변수를 나타냅니다. 여러 예측 변수를 의미했습니다. 이를 일반적으로 다중 회귀라고합니다.
매크로

1
또한 다른 로지스틱 회귀 모델의 는 일반적으로 비교할 수 없습니다. -이 미묘한 문제가 있지만, 기본적인 아이디어는 총 분산 (참조 잠재 규모는 로지스틱 회귀 분석은 자연적으로 발생한다는 점이다 - 이것은 규모가 변경 되었기 때문에입니다 en.wikipedia.org/wiki/...이 모델을 통해 고정되지 않음) 따라서 통계적으로 유의미한 변화를 설명 할 필요는 없지만 모델간에 계수가 동일 할 것으로 기 대해서는 안됩니다. 두 예측 변수 간의 종속성을 어떻게 확인 했습니까? β
매크로

아, 고마워요 spss의 선형 회귀를 통해 공선 성 진단을 확인하고 공차와 VIF를 확인했습니다. 이것이 맞습니까?
Annie

좋은 의견 @Macro. 척도에 대한이 문제를 해결하는 방법에 대해 읽은 것을 모호하게 기억하지만 어디에 있는지 기억하지 못합니다.
Peter Flom

1
@PeterFlom, 당신이 할 수있는 한 가지는 선형 예측 변수의 분산 (+ , 표준 로지스틱 분포의 분산)으로 계수의 스케일을 조정하는 것입니다. 이것은 그것들을 동일한 스케일로 만듭니다. 물론, 일단 이렇게하면 더 이상 배당률로 해석 할 수 없습니다. π2/3
매크로

답변:


20

몇 가지 이유가 있습니다 (그중 어느 것도 로지스틱 회귀와 관련이 없지만 회귀에서 발생할 수 있음).

  1. 자유도 손실 : 주어진 데이터 세트에서 더 많은 매개 변수를 추정하려고 할 때 더 많은 데이터를 효과적으로 요구하므로 정밀도가 높아 지므로 t- 통계량이 낮아지고 p- 값이 높아집니다.
  2. 회귀 분석기의 상관 관계 : 회귀 분석기는 서로 관련되어 있으며 유사한 것을 효과적으로 측정 할 수 있습니다. 로짓 모델이 노동 시장 상태 (작동 / 작동하지 않음)를 경험과 연령의 함수로 설명하는 것입니다. 경험이 많거나 나이가 많은 (논쟁을 위해 아주 오래된 직원을 배제) 직원은 최근 졸업생보다 일자리를 찾는 것이 더 쉽다는 것을 알기 때문에 개별적으로 두 변수는 상태와 긍정적으로 관련됩니다. 더 많은 경험을 갖기 위해서는 나이가 더 필요하기 때문에 분명히 두 변수는 밀접한 관련이 있습니다. 따라서 두 변수는 기본적으로 상태를 설명하기 위해 "경쟁"하며, 특히 작은 샘플에서는 두 변수가 "손실"될 수 있습니다. 두 변수는 다른 변수를 얻도록 제어 할 때 충분히 강력하고 정확하게 추정 할 수 없기 때문입니다. 중요한 추정치. 본질적으로, 당신은 묻습니다 : 나이를 일정하게 유지할 때 또 다른 해의 경험의 긍정적 인 효과는 무엇입니까? 데이터 세트에 해당 질문에 대답 할 직원이 거의 없거나 전혀 없을 수 있으므로 그 결과가 부정확하게 추정되어 p- 값이 커집니다.

  3. 잘못 지정된 모형 : t- 통계량 / p- 값에 대한 기본 이론에서는 올바르게 지정된 모형을 추정해야합니다. 이제 하나의 예측 변수 만 회귀하는 경우 일 변량 모델에 변수 바이어스가 생략 될 가능성이 매우 높습니다. 따라서, 모든 베팅은 p- 값의 작동 방식에 관한 것입니다. 기본적으로 모델이 올바르지 않을 때 신뢰해야합니다.


철저하고 빠른 답변에 감사드립니다. 먼저 다중 공선 성을 제거하려고 노력할 것입니다. 변수 사이의 상관 관계를 실행하고 일부를 찾았으며 분산 인플레이션 계수를 실행하여이를 확인하는 좋은 방법이라고 들었습니다. 그것이 자유도 문제라고 판명되면, 내가 할 수있는 일이 있습니까? 나는 이것이 일어나고 있다고 설명 할 수 있지만, 유의성이 너무 떨어지면 회귀의 완전성을 손상시키는 것으로 보입니다.
Sam O'Brien

3
@ SamO'Brien : 당신의 목표가 실제로 당신이 말한 것이라면- "독립적 인 변수가 잠재적으로 반응을 일으키는 원인을 결정하는 것"- "다중 공선 성을 제거하기 위해 다른 변수와의 상관 관계가 있기 때문에 다른 것을 무시하는 것" 그것을 달성하는 데 도움 않을 것입니다.
Scortchi - 분석 재개 모니카

1
간단한 회귀에서는 중요하지 않지만 다중 회귀에서는 중요하지 않은 동일한 예측 변수와 다른 방법으로 사용할 수 있습니까?
gkcn

8

이것이 발생 하지 않아야하는 특별한 이유는 없습니다 . 다중 회귀 분석은 단순 회귀 분석과 다른 질문을합니다. 특히, 다중 회귀 (이 경우 다중 로지스틱 회귀)는 종속 변수와 독립 변수 사이의 관계를 묻고 다른 독립 변수를 제어합니다. 단순 회귀는 종속 변수와 (단일) 독립 변수 사이의 관계에 대해 묻습니다.

연구의 맥락을 추가하면 (예 : 이러한 변수는 무엇입니까?)보다 구체적인 반응을 줄 수 있습니다. 또한 귀하의 경우에 세 가지 변수가 모두 이분법이므로 데이터를 매우 쉽게 제시 할 수 있습니다.이를 요약하는 데 필요한 줄은 8 줄뿐입니다.

DVIV1IV2CountAAA10AAB20

기타

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.