모델 간 로지스틱 회귀 계수 비교


11

6 개의 서로 다른 단면 데이터 세트에 적용 할 로짓 모델을 개발했습니다. 내가 알아 내려고하는 것은 다른 시간과 시간에 걸쳐 다른 설명을 제어하는 ​​종속 변수 (DV)에 대해 주어진 독립 변수 (IV)의 실질적 효과에 변화가 있는지 여부입니다.

내 질문은 :

  • IV와 DV 간의 연관성에서 증가 / 감소 된 크기를 어떻게 평가합니까?
  • 모델에서 계수의 다른 크기 (크기)를 간단히 볼 수 있습니까 아니면 다른 프로세스를 거쳐야합니까?
  • SPSS에서 다른 작업을 수행해야하는 경우 그 작업은 무엇이며 어떻게해야합니까?

    또한 단일 모델 내에서

  • 모든 코드가 0-1로 코딩 된 경우 표준화되지 않은 점수를 기준으로 독립 변수의 상대적 크기를 비교할 수 있습니까? 아니면 표준화 된 점수로 변환해야합니까?
  • 표준화 된 점수와 관련된 문제가 있습니까?

2
이 기사는 dx.doi.org/10.1093/esr/jcp006 에 관심이있을 수있다. 로지스틱 모델 간의 효과를 분명히 비교하는 것은 OLS의 경우보다 상당히 복잡하다!
앤디 W

답변:


13

나는 주로 첫 세 질문에 중점을 둘 것입니다. 짧은 대답은 다음과 같습니다. (1) 각 기간 동안 DV에 대한 IV의 효과를 비교해야하지만 (2) 크기 만 비교하면 잘못된 결론을 초래할 수 있으며 (3) 여러 가지 방법이 있지만 어느 것이 맞는지에 대한 합의가 없습니다.

아래에서는 왜 단순히 계수 크기를 비교할 수없고 지금까지 생각한 솔루션을 가리킬 수 없는지 설명합니다.

Allison (1999)에 따르면 OLS와 달리 로지스틱 회귀 계수는 이러한 이질성이 관심 변수와 관련이없는 경우에도 관찰되지 않은 이질성의 영향을받습니다.

로지스틱 회귀 분석에 적합 할 때 :

(1)

ln(11pi)=β0+β1x1i

실제로 이항 종속 변수 의 값 을 가정하기 위해 각 관측치의 기본 경향을 나타내는 잠재 변수 의 값을 예측하는 방정식을 피팅하는 중입니다. 가 특정 임계 값을 초과 하면 어떻게됩니까 ? 이에 대한 방정식은 (Williams, 2009)입니다. 1 y y1y

(2)

y=α0+α1x1i+σε

이라는 용어 는 다른 용어와 독립적이며 로지스틱 분포 또는 프로 빗 및 로지스틱 분포의 경우 정규 분포를 따르는 것으로 가정합니다. 카우치.ε

Williams (2009)에 따르면 방정식 2 의 계수는 다음을 통해 방정식 1 의 계수 와 관련이 있습니다 .βαβ

(3)

βj=αjσj=1,...,J.

방정식 2와 3에서 는 관찰되지 않은 변동의 스케일링 계수이며 추정 된 계수 의 크기는 의존 하지만 관찰되지는 않습니다. 이를 바탕으로 앨리슨 (1999), 윌리엄스 (2009) 및 무드 (2009)는 다른 그룹, 국가 또는 기간에 대해 추정 된 로지스틱 모델 간의 계수를 순진하게 비교할 수 없다고 주장합니다.β σσβσ

관찰되지 않은 변동이 그룹, 국가 또는 기간에 따라 다르면 비교가 잘못된 결론을 도출 할 수 있기 때문입니다. 다른 모델을 사용하고 동일한 모델 내에서 교호 작용 항을 사용하는 비교는이 문제로 인해 어려움을 겪습니다. 로짓 외에, 이것은 또한 사촌 프로 빗, 클로 로그, 카우치 및 확장에 의해 이러한 링크 함수를 사용하여 추정 된 이산 시간 위험 모델에도 적용됩니다. 정렬 된 로짓 모델도 영향을받습니다.

Williams (2009)는이 솔루션이 이종 선택 모델 (일명 위치 척도 모델)을 통해 관찰되지 않은 변동을 모델링하고이를 oglm 위한 Stata 추가 기능을 제공 한다고 주장합니다 (Williams 2010). R에서 이기종 선택 모델은 CRAN을 통해 사용 가능한 패키지 hetglm()기능에 적합 할 수 있습니다 glmx. 두 프로그램 모두 사용하기가 매우 쉽습니다. 마지막으로 Williams (2009)는 PLUM이러한 모델에 적합하도록 SPSS의 루틴을 언급 했지만이 모델을 사용한 적이 없으며 사용이 얼마나 쉬운 지 언급 할 수 없습니다.

그러나 분산 방정식이 잘못 지정되었거나 측정 오류가있는 경우 이기종 선택 모델을 사용한 비교가 훨씬 더 치우칠 수 있음을 보여주는 작업 문서가 하나 이상 있습니다.

Mood (2010)에는 분산 모델링과 관련이 없지만 예측 된 확률 변화의 비교를 사용하는 다른 솔루션이 나열되어 있습니다.

분명히 그것은 해결되지 않은 문제이며 종종 내 분야 회의 (사회)에서 다른 해결책을 제시하는 논문을 보게됩니다. 해당 분야의 사람들이 무엇을하는지 살펴보고 그에 대처하는 방법을 결정하도록 권합니다.

참고 문헌


R에서 Williams (2009) 솔루션을 구현하려고하는데 glmx 패키지의 새 버전에 더 이상 hetprob () 함수가없는 것 같습니다. 당신이 이것에 대한 대안을 알고 있는지 확인하고 싶습니까?
AliCivil

1
나는 한동안 glmx를 사용하지 않았으며 그것이 변경되었음을 몰랐습니다. 이제 CRAN을 통해 사용할 수 있으며, 부식성 프로 빗에 사용되는 기능을 hetglm ()이라고합니다. 나는 이것을 나중에 반영하기 위해이 답변을 업데이트 할 것입니다 (잠자리 시간에 관한 것입니다). 나는 이것이 지금 도움이되기를 바랍니다.
Kenji

3

데이터 세트간에 변경이 있습니까? 데이터를 보지 않고도 대답 할 수 있습니다! 예. 있습니다. 그들은 얼마나 큽니까? 그게 열쇠 야 나를 위해 보는 방법은 보는 것입니다. 각 데이터 세트에 대한 각 독립 변수에 대한 승산 비가 있습니다. 사람들이 흥미를 느끼는 방식이 다른가요? 이제 각각에 표준 오류가있는 것이 사실이며, 통계적으로 서로 상당히 다른지 확인할 수있는 방법이있을 수 있지만 실제로 흥미로운 질문입니까? 그렇다면 소프트웨어로 쉽게 테스트하는 한 가지 방법은 모든 연구를 결합하고 "연구"를 다른 독립 변수로 포함하는 것입니다. 원하는 경우 상호 작용을 테스트 할 수도 있습니다. 이 작업을 수행할지 여부는 실질적인 질문에 따라 다릅니다.

모형 내 변수를 비교할 때 표준화 된 점수의 주요 문제는 특정 표본에서 변수가 표준화된다는 것입니다. 따라서 모수 추정값 등은 특정 표본에서 변수의 표준 편차와 관련이 있습니다. 표본이 실제로 일부 모집단의 임의 표본 인 경우에도 다른 임의 표본과는 약간의 표준 편차가 있습니다. 이것은 혼란스러워합니다.

다른 문제는 "상대적 크기"라는 문제가 의미하는 바입니다. IV가 잘 이해 된 것이라면, 의미가있는 범위에서 OR을 비교할 수 있습니다.


피터, 고마워. 첫 번째 질문을 한 이유는 참고 논문에서 샘플 내 모델 간 계수 비교와 다른 샘플에서 모델 간 비교를 정확하게 알았 기 때문입니다. 나는 그것이 올바른 접근법이라고 생각하지 않았으며, 분명히 맞습니다. 기술적 세부 사항과 관련하여 6 개의 샘플 모두에 대한 모델과 비교하려는 주요 예측 변수와 각 샘플을 지정하는 변수 (다른 기간을 나타냄) 사이의 상호 작용 항을 간단히 추정 할 수 없습니까? 그게 니가 말하는거야? 각 변수마다 변수가 필요합니까
Ejs

안녕 @ejs. 다른 범주 형 변수 (더미 코딩 또는 효과 코딩 등)와 동일한 방식으로 "샘플링"을 코딩해야합니다.
Peter Flom

상호 작용과 관련하여 .... 그렇습니다. 해석하기가 어려울 수 있습니다. 나는 그것이 의미하는 것을 보여주는 그래픽 접근법을 좋아합니다.
Peter Flom

3

길 레르 메가 돈을 벌고 있습니다. 다른 반응이 유용하지만 로지스틱 회귀 (및 포아송과 같은 모든 비선형 회귀)는 선형 회귀와 근본적으로 다릅니다. 6 개의 다른 데이터 세트에서 동일한 분석을 실행 한 다음 결합 된 데이터 세트에서 해당 분석을 실행할 때 로짓 스케일링 계수에 심각한 문제가있을 수 있습니다. 계수의 변화는 통계적으로 유의하거나 실질적으로 중요하더라도 의미있는 차이와 아무 관련이 없습니다. 그들은 샘플에서 관찰되지 않은 이질성과 관련된 모든 것을 가질 수 있습니다. 당신은 절대적으로 그것을 테스트해야합니다. 사회 및 정책 과학 분야의 많은 (대부분은 아니지만) 연구원들은 이것을 무시합니다. Guilherme은 모든 사람들이 볼 것을 권장하는 중요한 기사를 제공합니다. 피터의 제안은 실용적입니다. 그러나 데이터가 나오는 샘플에 대한 더미 변수를 코딩하는 것은 스케일링 계수에서이 이질성을 다루지 않습니다. 선형 회귀 분석에서이 작업을 수행 할 수 있으며 이질성은 계수에 영향을 미치지 않아야하지만 여기서는 달라질 수 있습니다.

로짓 대 선형 회귀에 고유 한 관찰되지 않은 이질성의 영향에 대한 다른 측면은 각 데이터 세트에서 다른 회귀의 영향입니다. 동일한 변수가 없거나 다르게 측정되는 경우 생략 된 변수 바이어스 형식이 있습니다. 선형 회귀 분석과 달리 키 회귀 분석에 직교하는 생략 된 변수는 여전히 추정치를 바이어스 할 수 있습니다. Cramer는 다음과 같이 말합니다.

직교 회귀 분석을 사용하더라도 생략 된 변수 는 전체 방정식의 값과 비교하여 를 0으로 눌립니다. 즉, 불연속 모델 의 는 관찰되지 않은 이질성의 정도에 따라 반비례합니다. 실질적인 결과는 이와 관련하여 다른 샘플의 추정치는 직접 비교할 수 없다는 것입니다. ( http://dare.uva.nl/document/2/96199 )β^β^

변수를 생략 할 때 계수 추정값이 아래로 치우 치더라도 크래 머는 지적하지만 부분 미분은 그렇지 않습니다. 이것은 상당히 복잡하며보다 명확한 설명을 위해 기사를 읽어야합니다. 전반적인 요점은 로그 홀수 또는 확률 비율을 독점적으로 보지 않는 것입니다. 예상 확률과 파생 상품을 고려하십시오. 자세한 내용은 Stata의 margins 명령을 참조하십시오. JD Long에는 여기에 자세히 설명 된 논문이 있습니다.

마지막으로 로짓 모델의 상호 작용 항에 대해 논의 할 수있는 여러 논문이 있습니다. 내 이해는 상호 작용에 대한 로짓 계수를 가이드로 사용하지만 결정적인 것은 아닙니다. 특히 계수를 지수 확률 비율로 보는 것을 선호하는 경우에 특히 그렇습니다. 예측 된 확률과 평균 한계 효과를 살펴 보는 것이 좋습니다 (SPSS를 사용해도 Stata의 logit에 대한 margin 명령에 대한 문서를 참조하십시오).

나는 그 패키지가 이러한 문제들을 어떻게 다룰 수 있는지를 알기에 SPSS에 익숙하지 않다. 그러나 나는 이렇게 말할 것이다 : 당신이 이와 같은 더 깊은 통계적 문제에 들어갔을 때, 그것은 당신이 더 많은 시간으로 이동할 시간임을 나타냅니다. Stata 또는 R과 같은 유연하고 정교한 패키지


한계 효과를 추천하고 R 로의 이동을 추천하기 위해 +1
Kenji

1

유용 할 수있는 또 다른 도구는 표준화 된 회귀 계수 또는 적어도 대략적인 의사 버전입니다. 획득 한 계수에 예측 변수의 표준 편차를 곱하여 이러한 버전 중 하나를 얻을 수 있습니다. (최상의 버전에 대한 다른 버전과 토론이 있습니다 (예 : Menard 2002, Applied Logistic Regression Analysis ( Google books ) 참조). 이를 통해 여러 연구에서 효과의 강도를 평가할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.