R 선형 회귀 범주 형 변수 "숨김"값


10

이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 :

a.lm = lm(Y ~ x1 + x2)

x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다.

summary(a.lm)
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.521     0.20       1.446   0.19        
x1            -0.61     0.11       1.451   0.17
x2Low         -0.78     0.22       -2.34   0.005
x2Medium      -0.56     0.45       -2.34   0.005

나는 R이 그러한 요인들에 대한 일종의 더미 코딩을 도입한다는 것을 이해합니다 ( x2요인). x2"고"값을 어떻게 해석 합니까? 예를 들어, x2여기에 주어진 예에서 "High" 는 응답 변수에 어떤 영향을 미칩니 까?

나는 다른 곳 (예 : here )의 예 보았지만 이해할 수있는 설명을 찾지 못했습니다.

r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
여기서 좋은 대답을 얻을 수 있지만 stats.SE로 마이그레이션하기 위해이 플래그를 표시하려고합니다.이 질문에 대한 대답은 본질적으로 선형 회귀가 어떻게 작동하는지 이해하는 것으로 요약됩니다.
joran

예, 충분합니다. 삭제하고 직접 옮기면 더 좋을까요? 아니면 불필요합니까?

1
아무것도 할 필요가 없습니다. 나는 그것을 신고했지만, 모드가 도착하기까지 1-2 시간이 걸릴 수 있습니다. 일요일입니다.
joran

3
질문이 이동되기 때문에 여기에 답변을 제공하지 않습니다. 그러나 무슨 일이 일어나고 있는지 이해하기 위해 몇 가지를 시도해 볼 수 있습니다. 1. lm (Y ~ x1 + x2-1)을 실행합니다. "-1"은 절편을 제거합니다. 2. relevel을 사용하여 x2의 참조 범주를 변경하십시오.
Manoel Galdino

답변:


14

Q : "... x2 값"High "를 어떻게 해석합니까? 예를 들어,"High "x2가 여기에 제공된 예제의 응답 변수에 어떤 영향을 미칩니 까?

A : 출력에 x2 = "High"에 대한 언급이 없다는 것을 의심 할 여지가 없습니다. 현재 x2High가 "기본 사례"로 선택되었습니다. 이는 인간의 마음에 더 자연스럽게 L / M / H로 정렬 된 순서에도 불구하고 레벨에 대한 기본 코딩으로 요인 변수를 제공했기 때문입니다. 그러나 알파벳에서 "L"과 "M"보다 사전에 "H"가 기본 사례로 R에 의해 선택되었습니다.

'x2'가 주문되지 않았으므로보고 된 각 대비는 x2 = "High"에 상대적이므로 x2 == "Low"는 x2 = "High"에 대해 -0.78로 추정되었습니다. 현재 인터셉트는 x2 = "High"및 x1 = 0 일 때 "Y"의 추정값입니다. 레벨 순서를 변경 한 후 회귀 분석을 다시 실행하고 싶을 것입니다.

x2a = factor(x2, levels=c("Low", "Medium", "High"))

그러면 '중간'및 '높음'추정치가 예상 한 것과 더 일치합니다.

편집 : 대체 코딩 배열 (또는 모델 매트릭스의보다 정확한 배열)이 있습니다. R의 대비에 대한 기본 선택은 하나의 요소 수준 (또는 하나의 특정 요소 수준 조합)을 참조 수준 및 보고서로 지정하는 "처리 대비"입니다. 다른 수준 또는 조합에 대한 추정 평균 차이. 그러나 인터셉트를 0으로 설정하거나 (권장하지 않음) 다른 대비 선택 중 하나를 사용하여 참조 레벨을 전체 평균으로 설정할 수 있습니다.

?contrasts
?C   # which also means you should _not_ use either "c" or "C" as variable names.

추가 해석 부담이있는 것처럼 보이지만 여러 요인에 대해 다른 대비를 선택할 수 있습니다. S-Plus는 기본적으로 Helmert 대비를 사용하고 SAS는 처리 대비를 사용하지만 첫 번째 수준이 아닌 마지막 요인 수준을 참조 수준으로 선택합니다.


말이 되네요 x2"높음", "중간"또는 "낮음"중 하나 여야하기 때문에 분명히 "값 없음"을 가질 수 없다고 가정 합니다. 답변 주셔서 감사합니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.