분산 분석 대 다중 선형 회귀 분석?
이 두 가지 방법 모두 동일한 통계 모델을 사용하는 것 같습니다. 그러나 어떤 상황에서 어떤 방법을 사용해야합니까?
비교할 때 이러한 방법의 장단점은 무엇입니까?
왜 ANOVA가 실험 연구에서 일반적으로 사용되며 회귀 연구를 거의 찾지 못하는가?
분산 분석 대 다중 선형 회귀 분석?
이 두 가지 방법 모두 동일한 통계 모델을 사용하는 것 같습니다. 그러나 어떤 상황에서 어떤 방법을 사용해야합니까?
비교할 때 이러한 방법의 장단점은 무엇입니까?
왜 ANOVA가 실험 연구에서 일반적으로 사용되며 회귀 연구를 거의 찾지 못하는가?
답변:
분기가 변수 유형 , 특히 설명 변수 유형에 있음을 이해하는 것이 흥미로울 것 입니다. 일반적인 분산 분석에는 그룹이 다른 범주 형 변수가 있으며 연속 변수의 측정 값이 그룹간에 다른지 여부를 확인하려고합니다. 반면에 OLS는 주로 연속 회귀 및 반응 변수와 하나 또는 여러 회귀 변수 또는 설명 변수 간의 관계를 평가하려는 시도로 인식되는 경향이 있습니다 . 이러한 의미에서 회귀는 다른 기술로 볼 수 있으며 회귀선을 기반으로 값을 예측하는 데 사용됩니다.
그러나이 차이는 분산 알파벳 수프 (ANCOVA, MANOVA, MANCOVA)의 나머지 분석으로 ANOVA의 확장을 나타내지 않습니다. 또는 OLS 회귀에 더미 코딩 된 변수 포함. 구체적인 역사적 랜드 마크는 확실하지 않지만, 두 기술이 점점 더 복잡한 모델을 다루기 위해 병렬 적응 방식으로 성장한 것처럼 보입니다.
예를 들어 더미 (또는 범주 형) 변수 가있는 ANCOVA 와 OLS 의 차이 (상호 작용이있는 두 경우 모두) 가 최대의 것임을 알 수 있습니다 . 다중 선형 회귀와 관련하여 질문 제목의 제한에서 벗어난 것을 실례합니다.
두 경우 모두, 모델은 R 에서 lm
함수가 ANCOVA를 수행하는 데 사용 된다는 점과 본질적으로 동일합니다 . 그러나 회귀 모형에서 요인 (또는 범주 형) 변수의 첫 번째 수준 (또는 그룹)에 해당하는 절편을 포함하는 것과 관련하여 다르게 표시 될 수 있습니다.
균형 잡힌 모델 (동일한 크기의 그룹, )과 공변량 하나만 (매트릭스 표현을 단순화하기 위해) ANCOVA의 모델 매트릭스는 다음과 같이 변형 될 수 있습니다.n 1 , 2 , ⋯
위한 요인 변수 기, 블록 행렬로 표현.
이것은 선형 모델에 해당합니다.
α i β
회귀 필드에서, 특히 R에서 동일한 모델의 표현은 그룹 중 하나에 해당하는 전체 절편을 고려하며 모델 매트릭스는 다음과 같이 표시 될 수 있습니다.
OLS 방정식의
이 모델에서 전체 절편 은 각 그룹 수준에서 의해 수정되며 그룹의 경사도도 다릅니다.
모형 행렬에서 알 수 있듯이 프레젠테이션은 회귀 분석과 분산 분석 간의 실제 동일성을 기반으로합니다.
나는 코드의 일부 라인과 R에서 내가 좋아하는 데이터 세트 mtcars
로 이것을 확인하고 싶다 . 내가 사용하고 lm
가능한 벤 Bolker의 논문에 따르면 ANCOVA를 위해 여기 .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
어떤 방법을 사용해야하는지에 대한 질문의 일부 (R과의 회귀) 에 대해서는 이 글을 쓰면서 접한이 온라인 해설이 재미있을 것 입니다.
예측 변수가 범주 형인 경우 (통계량에서 도출 한 추론 측면에서) 분산 분석 및 OLS 회귀 분석은 수학적으로 동일합니다. 다시 말하면, 분산 분석은 특별한 회귀 분석의 경우입니다. 회귀 분석이 자체적으로 도출 될 수 없음을 분산 분석에서 알 수있는 것은 없습니다. 그러나 그 반대는 사실이 아닙니다. 연속 변수 분석에는 ANOVA를 사용할 수 없습니다. 따라서 ANOVA는보다 제한된 기술로 분류 될 수 있습니다. 그러나 회귀가 덜 복잡한 분석가에게 항상 유용한 것은 아닙니다. 예를 들어, 대부분의 ANOVA 스크립트는 상호 작용 항을 자동으로 생성하며, 회귀 분석과 마찬가지로 소프트웨어를 사용하여 직접 해당 항을 수동으로 계산해야합니다. ANOVA의 광범위한 사용은보다 강력한 통계 소프트웨어를 사용하기 전에 부분적으로 통계 분석의 유물입니다. 내 의견으로는, 기본 통계 패키지로 데이터를 분석 할 수있는 상대적으로 표면 수준의 이해를 목표로하는 경험이없는 학생들에게 가르치기 쉬운 기술. 언젠가 시도해보십시오 ... 기본 회귀가 뱉어 낸 통계를 검토하고 제곱 한 다음 동일한 데이터에 대한 분산 분석의 F 비율과 비교하십시오. 같은!
필자의 의견으로는 회귀 분석을 피하는 ANOVA의 주요 이점은 결과에있다. 범주 형 변수 (인수)의 블록으로 통계적 유의성에 관심이있는 경우 ANOVA는이 테스트를 제공합니다. 회귀 분석을 사용하면 범주 형 변수는 범주 수에 따라 2 개 이상의 더미 변수로 표시되므로 두 개 이상의 통계 테스트를 통해 각각 특정 범주의 평균을 null 범주의 평균 (또는 더미 코딩 방법에 따라 전체 평균). 이것들 중 어느 것도 흥미로울 수 없습니다. 따라서 관심있는 요인에 대한 전체 검정을 얻으려면 추정 후 분석 (본질적으로 ANOVA)을 수행해야합니다.
선형 회귀 분석의 주요 장점은 그룹 전체의 표본 크기가 다른 경우 분산의 동질성 위반에 강하다는 것입니다. 다른 하나는 여러 공변량의 포함을 촉진한다는 것입니다 (단 하나의 공변량을 포함하려는 경우 ANCOVA를 통해 쉽게 수행 할 수도 있음). 70 년대에는 컴퓨팅 능력의 발전으로 회귀가 널리 퍼졌습니다. 두 수준 이상이 존재할 때 범주 형 변수의 특정 수준 사이의 차이를 검사하는 데 특히 관심이있는 경우 회귀 분석이 더 편리 할 수 있습니다 (회귀 분석에서 더미 변수를 설정하여이 두 수준 중 하나를 설정하는 한) 참조 그룹을 나타냅니다).