R의 인수를 사용한 선형 회귀


10

R에서 요소가 정확히 어떻게 작동하는지 이해하려고합니다. R의 일부 샘플 데이터를 사용하여 회귀 분석을 실행하려고한다고 가정 해 보겠습니다.

> data(CO2)
> colnames(CO2)
[1] "Plant"     "Type"      "Treatment" "conc"      "uptake"   
> levels(CO2$Type)
[1] "Quebec"      "Mississippi"
> levels(CO2$Treatment)
[1] "nonchilled" "chilled"   
> lm(uptake ~ Type + Treatment, data = CO2)

Call:
lm(formula = uptake ~ Type + Treatment, data = CO2)

Coefficients:
 (Intercept)   TypeMississippi  Treatmentchilled  
       36.97            -12.66             -6.86  

나는 그것을 이해 TypeMississippi하고 Treatmentchilled논리 값으로 처리됩니다 : 각 행의 경우, 초기 흡수가 36.97, 우리는 빼기 12.66는 유형 미시시피의 경우 6.86가 냉각 된 경우. 다음과 같은 것을 이해하는 데 문제가 있습니다.

 > lm(uptake ~ Type * Treatment, data = CO2)

 Call:
 lm(formula = uptake ~ Type * Treatment, data = CO2)

 Coefficients:
                 (Intercept)                   TypeMississippi  
                      35.333                            -9.381  
            Treatmentchilled  TypeMississippi:Treatmentchilled  
                      -3.581                            -6.557  

lm? 에서 두 가지 요소를 곱하는 것은 무엇을 의미 합니까?

답변:


17

@John의 대답을 자세히 설명하려면 R의 수식에 몇 가지 연산자를 사용하여 용어에 적용 할 수 있습니다. "+"는 단순히 단어를 추가합니다. ":"는 상호 작용을 나타내는 용어 (또는 여러 단어)를 추가 함을 의미합니다 ( "*"는 둘 다를 의미합니다. 즉 "주요 효과"가 추가되고 상호 작용 항도 추가됩니다.

이 상호 작용은 무엇을 의미합니까? 연속 변수의 경우 실제로 두 변수의 배수 인 용어가 추가됩니다. 키와 몸무게를 예측 변수로 사용 out ~ height * weight하고 공식으로 사용 하는 경우 선형 모델에는 세 가지 '변수', 즉 몸무게, 키 및 해당 제품이 포함됩니다 (상호 작용도 포함하지만 여기서는 관심이 적습니다).

위에서 다르게 제안하지만 : 이것은 범주 변수에 대해 동일한 방식으로 작동하지만 이제 '제품'은 각 범주 변수의 더미 변수에 적용됩니다. 키와 몸무게가 각각 범주 (S (mall), M (edium) 및 L (arge))로 분류되어 있다고 가정합니다. 그런 다음 선형 모델에서 이들 각각은 0 또는 1 인 두 개의 더미 변수 세트로 표시됩니다 (다른 코딩 방법이 있지만 이것이 R의 기본값이며 가장 일반적으로 사용됨). 우리가 S를 둘 다에 대한 참조 범주로 사용한다고 가정하면, 두 번의 height.M 및 height.L이 있습니다 (무게와 유사 함).

이제 모델 out ~ height * weight에는 이제 4 개의 인형 + 모든 더미 조합의 모든 곱이 포함됩니다 (명백하게 계수를 쓰지는 않지만 암시 적입니다).

(intercept) + height.M + height.L + weight.M + weight.L + height.M * weight.M + height.L * weight.M + height.M * weight.L + height.L * weight.L.

위의 라인에서 '*'는 이제 단순 제품을 나타내지 만 이번에는 인형의 제품이므로 각 제품 자체도 1 (모든 요소가 1 인 경우) 또는 0 (적어도 하나가 아닌 경우)입니다.

이 경우 8 '변수'가능 다른 (평균) 결과 두 변수의 모든 조합에서 : 큰 무게를 갖는 효과가 더 이상 지금 (그들에게 효과가 단순히 용어에 의해 형성되는 작은 사람에 대해 동일 weight.L)로 큰 사람들을 위해 (여기, 효과는 weight.L + height.L * weight.L)


7

John의 대답을 따르기 위해 lm의 수식은 산술 표기법을 사용하지 않고 선형 모델을 설명하기 위해 소형 기호 표기법을 사용합니다 (특히 Wilkinson-Rogers 표기법, 여기에는 짧은 요약이 있습니다 http : //www.physiol .ox.ac.uk / ~ raac / R.shtml ).

기본적으로 모델 수식에 A * B를 포함하면 A, B 및 A : B (A와 B의 상호 작용)를 적합하게됩니다. 교호 작용 항이 통계적으로 유의하면 치료의 효과가 각 유형마다 다르다는 것을 나타냅니다.


3

도움으로 '수식'을 찾는 것이 도움이 될 것입니다. 곱셈하지 않고 두 가지 주요 효과와 그 상호 작용을 원한다고 말하고 있습니다.


1
(+1) 그것은 나에게 의견처럼 보입니다.
Dmitrij Celov
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.