범주 형 변수가 여러 개인 경우 베타 해석


18

범주 변수가 0 (또는 참조 그룹) 인 경우 이 평균 이라는 개념을 이해하므로 회귀 계수가 두 범주의 평균 차이라는 최종 해석을 제공합니다. > 2 범주를 사용하더라도 각 는 해당 범주의 평균과 참조의 차이점을 설명 한다고 가정 합니다. ββ^0β^

그러나 다 변수 모델에 더 많은 변수가 도입되면 어떻게 될까요? 이제 두 개의 범주 형 변수를 참조하기위한 평균이 아니라는 의미에서 인터셉트 란 무엇을 의미합니까? 예를 들어 성별 (M (ref) / F)과 인종 (white (ref) / black)이 모두 모델에있는 경우입니다. 는 IS 단지 백인 남성의 평균은? 다른 가능성을 어떻게 해석합니까?β^0

별도의 메모 : 대비 진술은 효과 수정을 조사하는 방법으로 작용합니까? 아니면 다른 수준에서 효과 ( )를 보시겠습니까?β^


용어로 "다변량"은 여러 예측 변수가 아닌 여러 반응 변수를 의미 합니다 ( 여기 참조 ). 또한, 나는 당신의 마지막 질문을 따르지 않습니다.
gung-Monica Monica 복원

이 설명에 감사드립니다. 언어를 올바르게하는 것이 중요합니다! 대조 변수가 항상 대조되는 변수로 참조 변수를 설정할 수 있기 때문에 대비 문이 사용되는 이유를 전혀 알 수 없다고 생각합니다.
Renee

1
다른 참조 레벨로 모델을 계속 다시 맞출 수 있다고 생각합니다. 더 편리한 지 잘 모르겠습니다. 대비를 사용하여 테스트 할 직교 대비 또는 이론적으로 암시 된 대비 (A와 B & C의 조합)를 지정할 수도 있습니다.
gung-복직 모니카

답변:


19

케이 수준 의 단일 범주 형 변수가있을 때 베타 해석에 대해 옳습니다 . 여러 범주 형 변수 있었다 (및 상호 작용 기간이 없었다) 경우 (절편 β 0 )를위한 기준 레벨을 구성하는 그룹의 평균 인 (전체) 범주 형 변수. 예제 시나리오를 사용하여 상호 작용이없는 경우를 고려하면 베타는 다음과 같습니다. β^0

  • β^0: 백인 남성의 평균
  • β^에프이자형미디엄이자형다음차이암컷의 평균 및 남성의 평균 간을
  • β^케이다음차분블랙의 평균과 백색의 평균 사이

우리는 또한 다양한 그룹 평균을 계산하는 방법으로 이것을 생각할 수 있습니다.

엑스¯h나는이자형 미디엄이자형에스=β^0엑스¯h나는이자형 에프이자형미디엄이자형에스=β^0+β^에프이자형미디엄이자형엑스¯케이 미디엄이자형에스=β^0+β^케이엑스¯케이 에프이자형미디엄이자형에스=β^0+β^에프이자형미디엄이자형+β^케이

교호 작용 항이 있으면 흑인 여성에 대한 방정식 끝에 추가됩니다. (이러한 상호 작용 용어에 대한 해석은 상당히 복잡하지만 여기서는 상호 작용 용어 해석에 대해 설명 합니다.)


업데이트 : 요점을 명확히하기 위해 코드화 된 통조림 예를 생각해 봅시다 R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

여기에 이미지 설명을 입력하십시오

y이러한 범주 형 변수 의 수단은 다음과 같습니다.

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

이러한 평균 간의 차이를 적합 모형의 계수와 비교할 수 있습니다.

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

이 상황에 대해 인식해야 할 것은 상호 작용 항이 없으면 평행선을 가정한다는 것입니다. 따라서 Estimate(Intercept)는 백인 남성의 평균입니다. Estimate에 대한이 SexFemale여성의 평균과 남성의 평균 사이의 차이입니다. Estimate용은 RaceBlack블랙의 평균과 백색의 평균 사이의 차이이다. 다시 말하지만, 교호 작용 항이없는 모형은 효과가 엄격하게 부가적인 것으로 가정하기 때문에 (선은 엄격하게 평행을 이룹니다) 흑인 여성의 평균은 백인 남성의 평균에 여성 평균과 남성 평균의 차이를 더한 것입니다 검정의 평균과 흰색의 평균의 차이


감사합니다! 매우 명확하고 도움이됩니다. 마지막으로 상호 작용 용어를 언급합니다. 상호 작용 항을 수행하는 경우 어떻게 베타를 변경합니까 (상호 작용 항 모델에서 새 베타를 의미 함) 상호 작용 항에 대한 p 값이 중요하다는 것을 알고 있지만 상호 작용 항 베타에 의미있는 해석이 있습니까? 도와 주셔서 감사합니다!
Renee

1
β^에프이자형미디엄이자형엑스¯h나는이자형 미디엄이자형엑스¯h나는이자형 에프이자형미디엄이자형

말이된다. 감사합니다! & 주요 효과를 개선하는 상호 작용 항으로 인해 상호 작용 항없이 모델에서 변경됩니까? 상호 작용이 없다면 주요 효과 용어는 이론적으로 동일합니까?
르네

교호 작용 효과가 모집단뿐만 아니라 표본에서도 정확히 0 (무한 소수 자릿수까지) 인 경우 주 효과 베타는 교호 작용 항이없는 모형에서 동일합니다.
gung-복직 모니카

1
@ hans0l0, 그것은 의견에 묻혀있는 정보보다는 새로운 질문으로 더 나을 것입니다. 문맥에 링크 할 수 있습니다. 간단히 말해서 모든 연속 변수가 0 일 때 기준 수준의 평균입니다.
gung-복원 Monica Monica

6

β^0β^

인종 카테고리 (예 : Asian )에 세 번째 레벨을 포함하도록 예제를 약간 확장 하고 White 를 참조로 선택한 경우 다음과 같이됩니다.

  • β^0=엑스¯h나는이자형
  • β^케이=엑스¯케이엑스¯h나는이자형
  • β^에스나는=엑스¯에스나는엑스¯h나는이자형

β^

  • 엑스¯에스나는=β^에스나는+β^0

불행히도 여러 범주 형 변수의 경우 절편에 대한 올바른 해석이 더 이상 명확하지 않습니다 (끝 부분 참고). 각각 여러 수준과 하나의 참조 수준 (예 : 흰색남성) 이있는 n 개의 범주 가있는 경우 가로 채기의 일반적인 형식은 다음과 같습니다.

β^0=나는=1엑스¯아르 자형이자형에프이자형아르 자형이자형이자형,나는(1)엑스¯,
엑스¯아르 자형이자형에프이자형아르 자형이자형이자형,나는 i 번째 범주 형 변수의 참조 수준의 평균입니다.
엑스¯ 전체 데이터 세트의 평균

β^

우리가 당신의 모범으로 돌아 가면, 우리는 다음을 얻을 것입니다.

  • β^0=엑스¯h나는이자형+엑스¯미디엄이자형엑스¯
  • β^케이=엑스¯케이엑스¯h나는이자형
  • β^에스나는=엑스¯에스나는엑스¯h나는이자형
  • β^에프이자형미디엄이자형=엑스¯에프이자형미디엄이자형엑스¯미디엄이자형

β^

β^β^0, β^케이, β^에스나는β^에프이자형미디엄이자형

수치 예

통조림 수치 예제를 위해 @Gung에서 빌려 드리겠습니다.

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

이 숫자를 회귀 결과와 비교할 수 있습니다.

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

β^β^0

β^0=엑스¯h나는이자형+엑스¯미디엄이자형엑스¯
1.5 + 5.333333 - 6.166667
# 0.66666

대비 선택에 대한 참고 사항

β^

β^영형아르 자형.에스미디엄β^영형아르 자형.에스미디엄

  • β^0영형아르 자형.에스미디엄=엑스¯
  • β^나는영형아르 자형.에스미디엄=엑스¯나는엑스¯

이전 예제로 돌아 가면 다음과 같은 결과가 나타납니다.

  • β^0영형아르 자형.에스미디엄=엑스¯
  • β^h나는이자형영형아르 자형.에스미디엄=엑스¯h나는이자형엑스¯
  • β^케이영형아르 자형.에스미디엄=엑스¯케이엑스¯
  • β^에스나는영형아르 자형.에스미디엄=엑스¯에스나는엑스¯
  • β^미디엄이자형영형아르 자형.에스미디엄=엑스¯미디엄이자형엑스¯
  • β^에프이자형미디엄이자형영형아르 자형.에스미디엄=엑스¯에프이자형미디엄이자형엑스¯

β^영형아르 자형.에스미디엄

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.