승산 비와 다른 지수 형 로지스틱 회귀 계수

내가 알기로, 로지스틱 회귀 분석에서 나온 지수 값은 종속 관심 변수에 대한 해당 변수의 승산 비입니다. 그러나 값이 수동으로 계산 된 승산 비와 일치하지 않습니다. 내 모델은 다른 지표 중에서 보험을 사용하여 스턴트 (영양 실조 측정)를 예측하고 있습니다.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

이러한 가치가 다른 개념적 이유는 무엇입니까? 회귀의 다른 요인들을 통제하고 있습니까? 불일치를 설명하고 싶을뿐입니다.

— 마이크
소스

로지스틱 회귀 모형에 예측 변수를 추가하고 있습니까? 수동으로 계산 된 승산 비는 다른 예측 변수를 포함하지 않은 경우 로지스틱 회귀 분석에서 얻을 수있는 승산 비와 만 일치합니다.

— 매크로

그것이 내가 생각한 것이지만 확인을 원했습니다. 회귀의 결과가 다른 예측 변수의 변동을 설명하기 때문입니까?

— mike

예, @mike. 모형이 올바르게 지정되었다고 가정하면 다른 예측 변수가 모두 고정 된 경우 승산 비로 해석 할 수 있습니다.

— Macro

@ 매크로 : 댓글로 답을 남겨주시겠습니까?

— jrennie

답변:

이 단일 예측 변수 만 모형에 넣는 경우 예측 변수와 반응 간의 승산 비는 지수 회귀 계수와 정확히 같습니다 . 나는이 결과가 사이트에 존재한다고 생각하지 않기 때문에이 기회를 제공 할 것이다.

이진 결과 와 단일 이진 예측 변수 고려하십시오 . $Y$ $X$

\begin{array}{ccc} Y = 1 & Y = 0 \\ X = 1 & p_{11} & p_{10} \\ X = 0 & p_{01} & p_{00} \end{array}

$\begin{array}{c|cc} \phantom{} & Y = 1 & Y = 0 \\ \hline X=1 & p_{11} & p_{10} \\ X=0 & p_{01} & p_{00} \\ \end{array}$

그런 다음 와 사이의 승산 비를 계산하는 한 가지 방법 은 $X_i$ $Y_i$

O R = \frac{p_{11} p_{00}}{p_{01} p_{10}}

${\rm OR} = \frac{ p_{11} p_{00} }{p_{01} p_{10}}$

조건부 확률의 정의에 의해 입니다. 이 비율에서 와 관련된 한계 확률은 취소되고 의 조건부 확률로 승산 비를 다시 쓸 수 있습니다 . $p_{ij} = P(Y = i | X = j) \cdot P(X = j)$ $X$ $Y|X$

O R = \frac{P (Y = 1 | X = 1)}{P (Y = 0 | X = 1)} \cdot \frac{P (Y = 0 | X = 0)}{P (Y = 1 | X = 0)}

${\rm OR} = \frac{ P(Y = 1| X = 1) }{P(Y = 0 | X = 1)} \cdot \frac{ P(Y = 0 | X = 0) }{ P(Y = 1 | X = 0)}$

로지스틱 회귀 분석에서는 다음과 같은 확률을 직접 모델링합니다.

\log (\frac{P (Y_{i} = 1 | X_{i})}{P (Y_{i} = 0 | X_{i})}) = β_{0} + β_{1} X_{i}

$\log \left( \frac{ P(Y_i = 1|X_i) }{ P(Y_i = 0|X_i) } \right) = \beta_0 + \beta_1 X_i$

따라서 이러한 조건부 확률을 모델에서 직접 계산할 수 있습니다. 위의 표현식에서 첫 번째 비율 은 다음과 같습니다. ${\rm OR}$

\frac{P (Y_{i} = 1 | X_{i} = 1)}{P (Y_{i} = 0 | X_{i} = 1)} = \frac{(\frac{1}{1 + e^{- (β_{0} + β_{1})}})}{(\frac{e^{- (β_{0} + β_{1})}}{1 + e^{- (β_{0} + β_{1})}})} = \frac{1}{e^{- (β_{0} + β_{1})}} = e^{(β_{0} + β_{1})}

$\frac{ P(Y_i = 1| X_i = 1) }{P(Y_i = 0 | X_i = 1)} = \frac{ \left( \frac{1}{1 + e^{-(\beta_0+\beta_1)}} \right) } {\left( \frac{e^{-(\beta_0+\beta_1)}}{1 + e^{-(\beta_0+\beta_1)}}\right)} = \frac{1}{e^{-(\beta_0+\beta_1)}} = e^{(\beta_0+\beta_1)}$

두 번째는 :

\frac{P (Y_{i} = 0 | X_{i} = 0)}{P (Y_{i} = 1 | X_{i} = 0)} = \frac{(\frac{e^{- β_{0}}}{1 + e^{- β_{0}}})}{(\frac{1}{1 + e^{- β_{0}}})} = e^{- β_{0}}

$\frac{ P(Y_i = 0| X_i = 0) }{P(Y_i = 1 | X_i = 0)} = \frac{ \left( \frac{e^{-\beta_0}}{1 + e^{-\beta_0}} \right) } { \left( \frac{1}{1 + e^{-\beta_0}} \right) } = e^{-\beta_0}$

이것을 공식에 다시 연결하면 이됩니다. ${\rm OR} = e^{(\beta_0+\beta_1)} \cdot e^{-\beta_0} = e^{\beta_1}$

참고 : 다른 예측 변수가 있는 경우 모형에서 라고 부르면 지수 회귀 계수 (유사한 파생 형 사용)는 실제로 $Z_1, ..., Z_p$

\frac{P (Y = 1 | X = 1, Z_{1}, . . ., Z_{p})}{P (Y = 0 | X = 1, Z_{1}, . . ., Z_{p})} \cdot \frac{P (Y = 0 | X = 0, Z_{1}, . . ., Z_{p})}{P (Y = 1 | X = 0, Z_{1}, . . ., Z_{p})}

$\frac{ P(Y = 1| X = 1, Z_1, ..., Z_p) }{P(Y = 0 | X = 1, Z_1, ..., Z_p)} \cdot \frac{ P(Y = 0 | X = 0, Z_1, ..., Z_p) }{ P(Y = 1 | X = 0, Z_1, ..., Z_p)}$

따라서 모형의 다른 예측 변수 값에 대한 승산 비 이며 일반적으로 같지 않습니다.

\frac{P (Y = 1 | X = 1)}{P (Y = 0 | X = 1)} \cdot \frac{P (Y = 0 | X = 0)}{P (Y = 1 | X = 0)}

$\frac{ P(Y = 1| X = 1) }{P(Y = 0 | X = 1)} \cdot \frac{ P(Y = 0 | X = 0) }{ P(Y = 1 | X = 0)}$

따라서 지수 계수와 관측 된 승산 비 사이의 불일치를 관찰하는 것은 놀라운 일이 아닙니다.

참고 2 : 실제 와 실제 승산 비 사이의 관계를 도출 했지만 단일 이진 예측 변수를 사용하여 적합 된 로지스틱 회귀 분석에서 2x2의 항목을 정확하게 재현하기 때문에 표본 수량에 대해 동일한 관계가 유지됩니다. 표. 즉, 적합 수단은 모든 GLM과 마찬가지로 샘플 수단과 정확히 일치합니다. 따라서 위에서 사용한 모든 논리는 실제 값을 샘플 수량으로 대체하여 적용됩니다. $\beta$

— 매크로
소스

와우, 완전한 설명을 쓸 시간을 내 주셔서 감사합니다.

— mike

@ 매크로 나는 "p- 값이 0.05보다 작다"와 "95 % CI에 1을 포함하지 않는다"는 로지스틱 회귀에서 일관성이 없다는 것을 발견했다 (SAS를 사용함). 이 현상이 설명과 관련이 있습니까?

— user67275

@Macro (+1)의 대답은 모델을 참조하지 않고 계산 된 단순 (마진) 확률 비율과 다중 로지스틱 회귀 모델에서 얻은 확률 비율 ( )는 일반적으로 동일하지 않습니다. 나는 여전히 여기에 약간의 관련 정보를 제공 할 수 있는지, 특히 그들이 평등하고 그렇지 않을 때를 설명 할 수 있는지 궁금합니다. $\exp(\beta)$

OLS 회귀 분석과 같이 로지스틱 회귀 분석의 베타 값 은 공변량의 1 단위 변화와 관련된 반응 분포를 제어하는 매개 변수 의 ceteris paribus 변화를 지정합니다 . 로지스틱 회귀 분석의 경우 이는 '성공'확률에 대한 로짓의 변화이며 OLS 회귀 분석의 경우 평균 입니다. 즉, 다른 모든 변화 는 동일 합니다. 지수화 된 베타는 마찬가지로 세리리스 파리 부 확률 비율이다. 따라서 첫 번째 문제는 이것이 의미가 있는지 확인하는 것입니다. 구체적으로, 해당 공변량은 모형의 다른 곳에 다른 용어 (예를 들어, 교호 작용 또는 다항식 용어)로 존재해서는 안됩니다. (여기서 포함 된 용어를 언급하고 있음에 유의하십시오. $\mu$ 실제 관계가 다른 공변량 수준에 따라 다르지만 상호 작용 항이 포함되지 않은 경우에도 문제가 있습니다. 예를 들어 a에서 베타를 지수화하여 확률을 계산하는 것이 의미가 있음 로지스틱 회귀 모형을 사용하면 모형 기반 확률 한계와 한계 확률 비율이 언제 달라지고 언제 어느 쪽을 선호해야하는지에 대한 질문을 할 수 있습니다.

이러한 OR이 달라지는 이유는 모형에 포함 된 다른 공변량이 해당 문제와 직교하지 않기 때문입니다. 예를 들어 공변량간에 간단한 상관 관계를 실행하여 확인할 수 있습니다 (p- 값이 무엇이든 상관 없거나 공변량이 연속적이 아닌 이면 요점은 단순히 ). 반면에 다른 공변량이 모두 해당 문제와 직교하면 는 한계 OR과 같습니다. $0/1$ $r\ne0$ $\exp(\beta)$

한계 OR과 모델 기반 OR이 다른 경우 모델 기반 버전을 사용하거나 해석해야합니다. 그 이유는 한계 OR이 공변량 사이의 혼란을 설명하지 않지만 모델은 그렇지 않기 때문입니다. 이 현상은 Simpson 's Paradox 와 관련 이 있습니다 .SEP 도 좋은 항목 이 있으며 여기에는 CV에 대한 토론이 있습니다 : Basic-simpson's-paradox , CV의 simpsons-paradox 태그를 검색 할 수 있습니다 ). 단순성과 실용성을 위해 모델 기반 OR 만 사용하는 것이 좋습니다. 이는 명확하게 선호되거나 동일하기 때문입니다.

— gung-복직 모니카
소스