이항 결과 및 예측 변수와 함께 로지스틱 회귀를 사용하는 것이 합리적입니까?

18

이진 결과 변수 {0,1} 및 예측 변수 {0,1}이 있습니다. 내 생각은 다른 변수를 포함시키고 승산 비를 계산하지 않으면 물류를하는 것이 의미가 없다는 것입니다.

하나의 이진 예측 변수를 사용하면 확률 충분 확률 대 승산 비를 계산하지 않습니까?

— 케발
소스

26

이 경우 데이터를 축소 할 수 있습니다. 여기서 대한 인스턴스의 개수 및 함께 . 전체적으로 관측치 가 있다고 가정합니다 .

\begin{array}{ccc} X ∖ Y & 0 & 1 \\ 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array}

$\begin{array}{c|cc} X \backslash Y & 0 & 1 \\ \hline 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array}$

S_{i j}

$S_{ij}$

x = i

$x = i$

y = j

$y =j$

i, j \in {0, 1}

$i,j \in \{0,1\}$

n

$n$

우리의 모델에 맞는 경우 (여기서, 우리 링크 기능이다) 우리 ' 찾을 것이다 때 성공 비율의 로짓이다 및 성공 비율의 로짓이다 . 즉, 및 $p_i = g^{-1}(x_i^T \beta) = g^{-1}(\beta_0 + \beta_1 1_{x_i = 1})$ $g$ $\hat \beta_0$ $x_i = 0$ $\hat \beta_0 + \hat \beta_1$ $x_i = 1$

{\hat{β}}_{0} = 지 (\frac{{에스}_{01}}{{에스}_{00} + {에스}_{01}})

$\hat \beta_0 = g\left(\frac{S_{01}}{S_{00} + S_{01}}\right)$

{\hat{β}}_{0} + {\hat{β}}_{1} = 지 (\frac{{에스}_{11}}{{에스}_{10} + {에스}_{11}}) .

$\hat \beta_0 + \hat \beta_1 = g\left(\frac{S_{11}}{S_{10} + S_{11}}\right).$

이인지 확인합시다 R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

로지스틱 회귀 계수는 표에서 나오는 비율을 정확하게 변환 한 것입니다.

결론은 일련의 Bernoulli 랜덤 변수에서 온 데이터가있는 경우 로지스틱 회귀로이 데이터 세트를 분석 할 수 있지만 결과 우연성 테이블을 직접 분석하는 것과 다르지 않은 것으로 판명되었습니다.

왜 이것이 이론적 인 관점에서 작동하는지에 대해 언급하고 싶습니다. 로지스틱 회귀 분석을 적용 할 때 우리는 . 그런 다음 평균을 또는 기호 에서 선형 예측 변수의 변환으로 모델링하기로 결정 . 우리의 경우 우리는 두 가지 고유 한 값이 , 따라서 만이 고유 한 값이있는 , 말의 와 . 우리의 독립 가정의 우리가 가지고 있기 때문에 과 $Y_i | x_i \stackrel{\perp}{\sim} \text{Bern}(p_i)$ $x_i$ $p_i = g^{-1}\left( \beta_0 + \beta_1 x_i\right)$ $x_i$ $p_i$ $p_0$ $p_1$

\sum_{나는 : {엑스}_{나는} = 0} {와이}_{나는} = {에스}_{01} \sim 큰 상자 (엔_{0}, 피_{0})

$\sum \limits_{i : x_i = 0} Y_i = S_{01} \sim \text{Bin} \left(n_0, p_0\right)$

\sum_{나는 : {엑스}_{나는} = 1} {와이}_{나는} = {에스}_{11} \sim 큰 상자 (엔_{1}, 피_{1}) .

$\sum \limits_{i : x_i = 1} Y_i = S_{11} \sim \text{Bin} \left(n_1, p_1\right).$ 와 과 이 무작위가 사실을 어떻게 사용하는지 주목하십시오. 이것이 사실 이 아니라면 반드시 이항 일 필요는 없습니다.

x_{i}

$x_i$

n_{0}

$n_0$

n_{1}

$n_1$

이는

{에스}_{01} / 엔_{0} = \frac{{에스}_{01}}{{에스}_{00} + {에스}_{01}} \to_{피} 피_{0} 과 {에스}_{11} / 엔_{1} = \frac{{에스}_{11}}{{에스}_{10} + {에스}_{11}} \to_{피} 피_{1} .

$S_{01} / n_0 = \frac{S_{01}}{S_{00} + S_{01}} \to_p p_0 \hspace{2mm} \text{ and } \hspace{2mm} S_{11} / n_1 = \frac{S_{11}}{S_{10} + S_{11}} \to_p p_1.$

주요 통찰력 : Bernoulli RV는이항 RV가 인 반면 이지만 둘 다 성공 확률은 같습니다. 이것이 이러한 우발성 테이블 비율이 관측 수준의 로지스틱 회귀와 같은 것을 추정하는 이유입니다. 이는 표와의 일치 일뿐 아니라 우리가 만든 분포 가정의 직접적인 결과입니다. $Y_i | x_i = j \sim \text{Bern}(p_j)$ $S_{j1} \sim \text{Bin}(n_j, p_j)$

— jld
소스

1

예측 변수가 두 개 이상이고 모든 예측 변수가 이진 변수 인 경우 논리 회귀 [1]를 사용하여 모형을 적합시킬 수 있습니다 ( "논리"가 아니라 "논리"임). 예측 변수 간의 상호 작용 효과가 현저하다고 생각할 때 유용합니다. R ( LogicRegpackage) 에는 구현이 있습니다 .

Ruczinski, I., Kooperberg, C. & LeBlanc, M. (2003). 논리 회귀. 전산 및 그래픽 통계 저널, 12 (3), 475-511.

— 호 라이스
소스

1

질문은 구체적으로 한 회귀 자 에 대한 것이므로 귀하의 답변은 주석으로 사용하는 것이 좋습니다.

— Richard Hardy