범주 형 변수를 사용하여 로짓 회귀 분석의 교호 작용 항 해석

25

응답자가 네 그룹 중 하나에 무작위로 할당 된 설문 조사 실험의 데이터가 있습니다.

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66

세 가지 치료 그룹은 적용되는 자극이 약간 다르지만, 내가 관심을 갖는 주요 차이점은 대조군과 치료 그룹 사이에 있습니다. 그래서 더미 변수를 정의했습니다 Control.

> summary(df$Control)
     TRUE FALSE 
       59   191

설문 조사에서 응답자들은 다른 두 가지 중에서 선호하는 두 가지 중 하나를 선택하도록 요청했습니다.

> summary(df$Prefer)
      A   B  NA's 
    152  93   5

그런 다음 치료 그룹에 의해 결정된 자극을 받고 (대조군에 속해 있지 않은 경우) 자극을받은 후 응답자에게 동일한 두 가지 중에서 선택하도록 요청했습니다.

> summary(df$Choice)
  A    B 
149  101

나는 세 가지 치료 그룹 중 하나에있는 존재가이 마지막 질문에서 응답자가 선택한 선택에 영향을 미쳤는지 알고 싶습니다. 내 가설은 치료를받은 응답자가보다 더 선택할 가능성이 높다는 A것 B입니다.

범주 형 데이터로 작업 중이므로 로짓 회귀 분석을 사용하기로 결정했습니다 (정확하지 않다고 생각되면 자유롭게 들리십시오). 응답자가 무작위로 할당되었으므로 다른 변수 (예 : 인구 통계)를 제어 할 필요가 없다는 인상을 받고 있으므로이 질문에 대해서는 제외했습니다. 첫 번째 모델은 다음과 같습니다.

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

나는 통계적으로 중요한 절편이 해석 가능한 의미를 갖는 것이 아니라는 인상을 받고있다. 아마도 다음과 같이 상호 작용 용어를 포함시켜야한다고 생각했습니다.

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

이제 치료 그룹에서와 같이 응답자 상태가 예상되는 영향을 미칩니다. 이 단계가 유효한 단계입니까? 상호 작용 항을 ControlFALSE:PreferA어떻게 해석 할 수 있습니까? 다른 계수는 여전히 로그 확률입니까?

— 피그말리온
소스

내 대답은 여기에 관련이 있습니다 : stats.stackexchange.com/questions/246873/…

— kjetil b halvorsen

31

나는 A를 선호하고 그렇지 않으면 0을 선호 할 때 PreferA = 1, 처리 할 때는 ControlFALSE = 1, 통제 할 때는 0을 가정합니다.

사람이 이전에하지 않았고 치료를받지 않았을 때 A를 선점 할 확률 (ControlFALSE = 0 및 PreferA = 0)은 . 즉 23 명은 그러한 사람마다 A를 선호합니다 B를 선호합니다. 그래서 A는 매우 인기가 있습니다. $\exp(3.135)= 23$

치료제의 효과는 이전에 A를 선호하지 않은 사람을 나타냅니다 (PreferA = 0). 이 경우 기준 확률 은 치료를받을 때 또는 만큼 줄어 듭니다 . 따라서 치료를 받고 A를 선호하지 않은 사람들에 대해 A를 선택할 확률은 이므로 B를 선호하는 모든 사람들에 대해 A를 선호하는 사람이 2.3입니다. 처리되지 않은 / 기준선 그룹보다 B보다 적지 만 그렇지 않다. $\exp(-2.309) = .099$ $(1-.099) \times 100\%=-90.1\%$ $.099*23=2.3$

A를 선호하는 효과는 이전에 통제자인 사람을 말합니다 (ControlFALSE = 0). 이 경우 누군가가 A를 선호했을 때 기준 확률은 또는 만큼 감소합니다 . (따라서 이전에 A를 페퍼 한 사람들은 지금 그렇게 할 가능성이 훨씬 적습니다 . $.006$ $-99.4\%$

상호 작용 효과는 이전에 A를 선호했던 사람들과 그렇지 않은 사람들에 대한 치료 효과를 비교합니다. 어떤 사람이 이전에 A를 선호했다면 (PreferA = 1) , 치료 의 승산 비 는 인수 합니다. 따라서 이전에 A를 선호했던 치료의 승산 비는 입니다. 또는 이전에 A를 선호했던 치료의 승산 비는 로 계산할 수 있습니다 . $\exp(2.850) = 17.3$ $17.3 \times .099 = 1.71$ $\exp(2.850 - 2.309)$

따라서 지수 상수는 기본 확률을 제공 하고, 주 효과의 지수 계수 는 다른 변수가 0 일 때 확률 비율 을 제공하며, 상호 작용 항의 지수 계수 는 확률 비율이 변경되지 않음으로써 비율을 알려줍니다 .

— 마틴 부 이스
소스

Maarten에게 감사합니다. 이것은 다른 관련 질문에 대한 귀하의 답변과 마찬가지로 매우 유용합니다. 그래도 한 지점에서 약간의 설명을 원합니다. 다른 질문에서 언급했듯이, 나는 ControlFALSE첫 번째 모델에서 p- 값이 높고 두 번째 모델에서 상당히 낮다 는 사실 때문에 여기서 내가 한 일의 통계적 타당성에 대해 우려 하고 있습니다. 이 특정 사례에 대한 다른 질문에 대한 답변을 적용하면 Control한 그룹에 부정적인 영향을 미치고 다른 그룹에 Prefer긍정적 인 영향을 줄 경우에 발생할 수 있다고 말했습니다 .

— Pygmalion

(공간에서 벗어남) 그 해석이 여기서 의미가 있습니까? 직접 적용하는 방법을 잘 모르겠습니다.

— 피그말리온

의 효과 ControlFALSE첫 번째 모델은 치료의 효과 두 번째 모델에서 효과가있는 동안, 그 이전에 선호하는 A와 그렇지 않은 사람 만 이전에 다음을 선호하지 않은 사람들을위한 치료의 효과가. 그것이 맞는지 아닌지는 통계적인 질문이 아니라 실질적인 의미인지의 여부입니다.

— Maarten Buis

@MaartenBuis 훌륭한 설명입니다. 추정치의 신뢰 구간에 대한 등가 계산을 어떻게 수행 하시겠습니까? 해석의 편의를 위해 일반적으로 물류 모델을 계층화하고 (예 :이 예에서는 사전 선호도에 따라) 상호 작용 항을 "OR의 유의미한 차이에 대한 통계 검정으로 사용합니다. – 이것이 허용됩니까?

— bobmcpop

2

또한이 문서가 로지스틱 회귀 분석의 상호 작용을 해석하는 데 도움이된다는 것을 알았습니다.

첸, JJ (2003). 복잡한 정보 전달 : 다중 로지스틱 회귀 분석에서 통계적 상호 작용 해석 . 미국 공중 보건 저널 , 93 (9), 1376-1377.

— 심해
소스

4

필자는 전체 참조 (제목, 저자, 날짜, 저널 등)를 제공했으며, 이는 링크 주소가 변경되는 경우에도 기여가 여전히 유용하다는 것을 의미합니다. 그러나 내용을 요약하여 확장 할 수 있습니까? 그렇지 않으면 이것은 답변보다 실제로 주석에 더 가깝습니다. 우리는 답변이 독립적 인 것을 선호하므로 "링크 썩음"에 내성이 있습니다. 또는 이것을 주석으로 변환 할 수도 있습니다.

— 실버 피쉬

감사. NCBI를 연결하고 있었으므로 괜찮을 것이라고 생각했습니다. 변경 사항에 동의합니다. 감사!

— 심해

0

로지스틱 회귀 분석에서 상호 작용을 해석하려고 할 때 선호하는 것은 범주 형 변수의 각 조합에 대해 예측 된 확률을 보는 것입니다. 귀하의 경우, 이것은 4 가지 확률 일 것입니다 :

A를 선호하고, 참을 통제하십시오
A를 선호하고, 거짓을 통제하십시오
B를 선호하고, 진정한 통제
B 선호, 거짓 제어

연속 변수가 있으면 보통 1 사분 위와 3 사 분위의 예측값을 봅니다.

이것이 각 계수의 해석에 직접적으로 영향을 미치지는 않지만 , 나는 그것이 종종 (그리고 내 고객) 명확한 상황에서 무슨 일이 일어나고 있는지 볼 수 있다는 것을 알게됩니다.

— 피터 플 로움-모니카 복원
소스