답변:
이 경우 데이터를 축소 할 수 있습니다. 여기서 대한 인스턴스의 개수 및 함께 . 전체적으로 관측치 가 있다고 가정합니다 . (S)I, J, X=I, Y=J를I,J∈{0,1}N
우리의 모델에 맞는 경우 (여기서, g는 우리 링크 기능이다) 우리 ' 찾을 것이다 \ 모자 \ beta_0이 때 성공 비율의 로짓이다 x_i로부터 = 0 및 \ 모자 \ beta_0 + \ 모자 \ beta_1이 성공 비율의 로짓이다 x_i로부터 = 1 . 즉, \ hat \ beta_0 = g \ left (\ frac {S_ {01}} {S_ {00} + S_ {01}} \ right) 및 \ hat \ beta_0 + \ hat \ beta_1 = g \ left ( \ frac {S_ {11}} {S_ {10} + S_ {11}} \ 오른쪽). g β 0 X 난 = 0 β 0 + β 1 X 난 = 1 β 0 = g ( S 01 β 0+ β 1=g(S11
이인지 확인합시다 R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
로지스틱 회귀 계수는 표에서 나오는 비율을 정확하게 변환 한 것입니다.
결론은 일련의 Bernoulli 랜덤 변수에서 온 데이터가있는 경우 로지스틱 회귀로이 데이터 세트를 분석 할 수 있지만 결과 우연성 테이블을 직접 분석하는 것과 다르지 않은 것으로 판명되었습니다.
왜 이것이 이론적 인 관점에서 작동하는지에 대해 언급하고 싶습니다. 로지스틱 회귀 분석을 적용 할 때 우리는 . 그런 다음 평균을 또는 기호 에서 선형 예측 변수의 변환으로 모델링하기로 결정 . 우리의 경우 우리는 두 가지 고유 한 값이 , 따라서 만이 고유 한 값이있는 , 말의 와 . 우리의 독립 가정의 우리가 가지고 있기 때문에 과
이는
주요 통찰력 : Bernoulli RV는이항 RV가 인 반면 이지만 둘 다 성공 확률은 같습니다. 이것이 이러한 우발성 테이블 비율이 관측 수준의 로지스틱 회귀와 같은 것을 추정하는 이유입니다. 이는 표와의 일치 일뿐 아니라 우리가 만든 분포 가정의 직접적인 결과입니다.
예측 변수가 두 개 이상이고 모든 예측 변수가 이진 변수 인 경우 논리 회귀 [1]를 사용하여 모형을 적합시킬 수 있습니다 ( "논리"가 아니라 "논리"임). 예측 변수 간의 상호 작용 효과가 현저하다고 생각할 때 유용합니다. R ( LogicReg
package) 에는 구현이 있습니다 .
Ruczinski, I., Kooperberg, C. & LeBlanc, M. (2003). 논리 회귀. 전산 및 그래픽 통계 저널, 12 (3), 475-511.