분산 분석에서 변수의 순서는 중요하지 않습니까?


20

다중 요인 분산 분석에 변수를 지정하는 순서가 차이를 만들지 만 다중 선형 회귀 분석을 수행 할 때 순서는 중요하지 않다는 것을 이해하는 것이 맞습니까?

측정 된 혈액 손실 y 및 두 가지 범주 형 변수와 같은 결과를 가정

  1. 선종 절제술 방법 a ,
  2. 편도 절제술 방법 b .

모델 y~a+b이 모델 과 다릅니다 y~b+a(또는 R의 구현이 나타내는 것 같습니다).

여기서 분산이라는 용어는 잔차 분산을 두 번째 요인으로 지정하려고 시도하기 전에 첫 번째 요인에 대해 가능한 한 많은 분산을 계산하므로 ANOVA는 계층 적 모델 이라는 것을 이해하는 것이 맞 습니까?

위의 예에서 편도 절제술을 수행하기 전에 항상 선종 절제술을 먼저 수행하기 때문에 계층 구조가 의미가 있습니다.


12
불균형 설계, 즉 셀 크기가 같지 않은 분산 분석에서는 순서가 중요합니다. 이 주제는 종종 "제곱합 유형"이라는 제목으로 처리됩니다. 참조 epm.sagepub.com/content/38/3/621.full.pdf+html 과 CHL의 답변을 stats.stackexchange.com/questions/11209/...
스라소니

1
stats.stackexchange.com/questions/20452 에서 gung의 답변을 참조하십시오 .
amoeba는 Reinstate Monica

방금이 문제에 대한 또 다른 견해를 밝히기를 희망하면서 나의 오래된 토론을 확장했습니다. 그것은 여전히 ​​작업이 필요하며 누군가 편집 작업을 돕는 신경이있을 수 있습니다. 여기 내가 지금까지 가지고있는 것입니다 : go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm 아마도 그 질문에 대한 명확한 대답으로 추출 될 수있는 흥미로운 점이 있습니다.
고트 프리드 투구

답변:


17

이 질문은 분명히 균형이 잡히지 않은 양방향 설계를 가진 연구에서 나 왔으며, aov()함수 와 함께 R로 분석되었습니다 . 이 페이지 는이 문제에 대한보다 최근의 자세한 예를 제공합니다.

이 질문에 대한 일반적인 답변은 "많이있다"입니다. 여기서는 설계의 균형이 맞는지 여부와 그렇지 않은 경우 어떤 ANOVA의 풍미가 선택되는지에 달려 있습니다.

첫째, 디자인의 균형이 맞는지 여부에 달려 있습니다. 요인 설계의 모든 셀에서 동일한 수의 사례를 사용하여 가능한 모든 세계에서 최선을 다하면 ANOVA 수행 방식에 관계없이 모형에 요인을 입력하는 순서로 인해 차이가 없습니다. * 해당 사례 아마도 후 향적 임상 코호트에서 비롯된 것은 그러한 균형이 발견되지 않은 실제 세계에서 온 것으로 보인다. 따라서 순서 중요 할 수 있습니다 .

둘째, 분석이 어떻게 수행되는지에 달려 있는데, 이는 다소 논쟁의 여지가있는 문제입니다. 불균형 설계의 분산 분석 유형은 주요 효과 및 상호 작용을 평가하는 순서가 다릅니다. 상호 작용을 평가하는 것은 양방향 및 고차 분산 분석의 기본이므로 최상의 진행 방법에 대한 분쟁이 있습니다. 한 가지 설명과 토론 은 이 교차 검증 페이지 를 참조하십시오 . 다른보기 를 위해 패키지Anova()매뉴얼car 에서 (대문자 "A") 기능에 대한 세부 사항 및 경고를 참조하십시오 .

요소의 순서는 않습니다 기본에서 불균형 설계에 문제 aov()라고 어떤 용도 유형-I는 테스트 R에. 이것들은 본 질문이 구상 한 바와 같이, 모델 진입 순서에 따라 요인들에 대한 분산의 순차적 속성이다. 순서 R 패키지 의 Anova()기능에 의해 제공되는 type-II 또는 type-III 테스트와 관련 이 없습니다car . 그러나 이러한 대안은 위 링크에 언급 된 자체 잠재적 인 단점이 있습니다.

마지막으로, lm()R에서 와 같이 다중 선형 회귀와의 관계를 고려하십시오 . 이는 상호 작용 항을 포함하는 경우 본질적으로 동일한 유형의 모형입니다. 변수의 입력 순서는로 보고 된 lm()회귀 계수 및 p- 값의 관점에서 중요하지 않습니다 summary(lm()). 여기서 k 수준 범주 형 요인은 (k-1) 이진 더미 변수로 코딩되고 회귀 계수는 각 더미에 대해보고됩니다 .

그러나 lm()출력을 anova()R stats패키지의 소문자 "a" 로 랩핑 하거나 Anova()기존 ANOVA에서 예상하는대로 모든 레벨에 대한 각 요인의 영향을 요약 할 수 있습니다. 그런 요인의 순서로 중요합니다 anova()경우와 aov(),와 함께 문제가되지 않습니다 Anova(). 마찬가지로 어떤 유형의 분산 분석을 사용해야하는지에 대한 분쟁이 다시 발생합니다. 따라서 lm()모델의 모든 다운 스트림 사용에서 요인 입력의 순서 독립성을 가정하는 것은 안전하지 않습니다 .


* 모든 세포에서 동일한 수의 관측 값을 갖는 것으로 충분하지만, 내가 알기로는 요인의 순서가 관련이 없을 필요는 없습니다. 덜 까다로운 유형의 잔고는 주문 독립성을 허용 할 수 있습니다.


실제로, 관측 데이터는 불균형이었고 매우 불균형했습니다.
Farrel

균형 잡힌 연구 설계 하에서, SS 분석은 선택된 anova 테스트 (typeI, II, III)의 유형에 관계없이 순서에 의존하지 않을 것입니다. 이것을 이해하는지 잘 모르겠습니다. 균형 잡힌 데이터를 기반으로 선형 모델에서 R의 'anova'함수 (유형 I 테스트 사용)를 사용하면 기능 순서가 중요합니다.
PejoPhylo

1
@PejoPhylo 데이터가 균형 잡히면 직교 디자인이라고 할 수 있습니다. 직교 설계를 사용하면 처리와 해당 상호 작용간에 제곱의 합을 나눌 수있는 고유 한 방법이 있으므로 처리 항목의 순서는 효과 추정 및 p- 값과 관련이 없습니다. 이 페이지 는 수학적 설명을 제공합니다. 이것은 즉시 명백하지 않습니다. 내가 방금 연결 한 질문은이 사이트의 회원이 가장 높은 평판을 얻은 질문이었습니다. 불균형 데이터는 직교성을 파괴 할 수 있습니다.
EdM

귀하의 답변에 감사드립니다 @EdM
PejoPhylo

0

계층 적 모델이라는 용어는 요인 간의 구조를 나타냅니다. 예를 들어, 다기관 연구는 계층 적입니다. 환자를 치료하는 병원 내에 환자가 중첩되어 있습니다. 각 병원은 위약 및 임신 환자를 치료하지만 병원 A 또는 B에서 각 환자를받는 것은 병원이 모든 환자에게 영향을 미치는 일반적인 영향으로 인해 약간 다릅니다 (실험 에이전트와의 상호 작용 효과 일 수도 있음). 이를 계층 적 효과라고합니다.

이제 당신의 ectomy 방법은 계층적일 수 있습니다 : 특정 편도 절제술 방법은 이전에 사용 된 선종 절제술 방법에 따라 (그 자체로, 아직 효과가 아닌, 그 자체로는 아직 효과가 없음) 그럴듯한가? 환자? 그렇다면 모델에 지정해야합니다.

y ~ a + b가 y ~ b + a와 다를 수 있다는 관찰은 무언가 잘못되었음을 나타냅니다. 첨가제 효과는 출퇴근하므로 차이가 없어야합니다 (작은 숫자 차이는 제외). 수술 방법의 효과가 통계학자가 나중에 효과를 지정하는 순서에 따라 달라질 수 있다는 것은 그럴듯하거나 바람직하지 않습니다. 따라서 R데이터 를 제공하는 잘못된 접근 방식을 선택했을 것입니다 .


1
마지막 단락을 따르지 않을 것입니다. 불균형 요인 분산 분석에서 유형 I (순차) 제곱합을 통해 계산 된 각 요인에 대한 p- 값은 요인의 순서에 따라 달라집니다. 나는 이것이 질문의 요점이라고 생각합니다.
amoeba는 Reinstate Monica가

@Farrel에 Type I SS가 있는지 확실하지 않습니다. 데이터 세트와 모델 명령문의 일부 정렬로 인해 SAS가 다른 유형 III SS를 출력하는 것을 한 번 기억했습니다. 아마도 이것은 R에서도 발생할 수 있습니까?
Horst Grünbusch

2
나는 사실을 알 수 없으며 5 년 전에 Q가 질문되었다는 것을 기억하지 못할 수도 있습니다. 그러나 나는이 생각 지금까지 "모델 Y ~ A + B 모델 Y 다릅니다 ~ B + (R 내 구현을 나타내는 것, 그래서 나)는"특히 주어진 사실 그의 말의 가장 인색 해석 aovR의 해당 명령은 기본적으로 유형 I SS를 사용합니다. 현상금을 제공했을 때 불균형 anova 디자인의 문제, 유형 I / II / III SS의 차이점 및 선형 회귀의 문제가 같은지 아닌지에 대한 몇 가지 의견을 설명 할 것으로 예상됩니다.
amoeba는 Reinstate Monica가

1
아닙니다. SS I / II / III 사이에 차이가없는 경우 균형을 잡더라도 설계 행렬은 anova에서 특이합니다. SS I / II / III는 (균형의 경우와 달리) 비 직교가되기 때문에 불균형의 경우에만 다릅니다. 내 이해에서 이것은 상관 예측 변수와의 선형 회귀에 해당하며 매우 일반적인 상황입니다. 내 대답은 회귀에서도 동일한 문제가 발생한다는 것입니다. 다른 모든 예측 변수의 영향을 고려한 후 한 예측 변수의 p- 값을 계산하는 것이 표준이라는 것입니다. 이것은 anova의 Type III SS에 해당합니다.
amoeba는 Reinstate Monica가

1
ANOVA에서 변수 순서에 대한 이러한 질문처럼오고 계속 이 일 어제 스택 오버플로 마이그레이션. 나는이 5 살짜리 질문이가 aov아니라 유사하게 기초하고 있다고 가정하는 것이 안전하다고 생각 하며 lm, @amoeba가 5 월 12 일, 14:31의 주석에서 언급 한 유형의이 질문에 대한 답을 갖는 것이 도움이 될 것입니다. .
EdM
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.