이항 로지스틱 회귀 분석을 사용 하여 사용자가 무언가를 클릭 할 가능성에 노출 has_x
되거나 has_y
영향을 미치는지 식별합니다 . 내 모델은 다음과 같습니다.
fit = glm(formula = has_clicked ~ has_x + has_y,
data=df,
family = binomial())
이것은 내 모델의 출력입니다.
Call:
glm(formula = has_clicked ~ has_x + has_y,
family = binomial(), data = active_domains)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9869 -0.9719 -0.9500 1.3979 1.4233
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.504737 0.008847 -57.050 < 2e-16 ***
has_xTRUE -0.056986 0.010201 -5.586 2.32e-08 ***
has_yTRUE 0.038579 0.010202 3.781 0.000156 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 217119 on 164182 degrees of freedom
Residual deviance: 217074 on 164180 degrees of freedom
AIC: 217080
Number of Fisher Scoring iterations: 4
각 계수가 유의미하기 때문에이 모델을 사용하면 다음 조합을 사용하여 이러한 조합의 값이 무엇인지 알 수 있습니다.
predict(fit, data.frame(has_x = T, has_y=T), type = "response")
Std에보고하는 방법을 이해하지 못합니다. 예측 오류.
만 사용해야 합니까? 아니면 여기에 설명 된 접근 방식을 사용 하여 를 변환해야 합니까?
두 변수에 대한 표준 오차를 이해하려면 어떻게 생각합니까?
이 질문 과 달리 오류의 상한과 하한이 백분율로 무엇인지 이해하는 데 관심이 있습니다. 예를 들어, 내 예측 중 37 %의 값을 보여True,True
이것이 경우 라고 계산할 수 있습니까? (내 요점을 설명하기 위해 0.3 % 선택)95 % C I