R의 정규성 또는 분산의 동등성이없는 데이터에 대해 양방향 분산 분석을 실행하는 방법은 무엇입니까?


16

현재 마스터 논문을 작성 중이며 SigmaPlot으로 통계를 실행할 계획입니다. 그러나 내 데이터로 시간을 보낸 후 SigmaPlot이 내 문제에 맞지 않을 수 있다는 결론에 도달했습니다 (실수로 잘못되었을 수 있음) .R에서 첫 번째 시도를 시작했기 때문에 정확하게 쉽지 않았습니다.

계획은 3 가지 다른 단백질과 8 가지 다른 처리에서 나온 데이터에 대해 간단한 2 원 분석을 실행하는 것이 었습니다. 따라서 두 가지 요소는 단백질과 처리입니다. 나는 둘 다를 사용하여 정상 성을 테스트했다.

> shapiro.test(time)

> ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time)))

두 경우 모두 (놀랍지는 않지만) 비정규 분포로 끝났습니다.

분산의 평등에 사용할 테스트의 첫 번째 질문으로 나를 떠났습니다. 나는 생각해 냈다

> chisq.test(time)

결과적으로 데이터에 분산의 평등이 없습니다.

나는 다른 데이터 변환 (로그, 센터, 표준화)을 시도했지만 모두 차이와 관련된 문제를 해결하지 못했습니다.

이제는 어느 단백질과 어떤 치료법이 서로 크게 다른지 테스트하기 위해 분산 분석을 수행하는 방법을 잃었습니다. 나는 Kruskal-Walis-Test에 대해 무언가를 찾았지만 한 가지 요인 (?)에 대해서만 발견했습니다. 나는 또한 순위 또는 랜섬 화에 관한 것들을 찾았지만 아직 R에서 이러한 기술을 구현하는 방법을 찾지 못했습니다.

누구든지 내가해야 할 일이 있습니까?

편집 : 귀하의 답변에 감사드립니다, 나는 독서에 약간 압도적입니다 (단지 점점 더 많이 얻는 것 같습니다). 물론 계속 갈 것입니다.

다음은 제안 된 데이터의 예입니다 (형식이 매우 유감입니다. 파일을 넣을 다른 솔루션이나 장소를 찾을 수 없었습니다. 여전히이 모든 것을 알고 있습니다).

protein treatment   time  
A   con 2329.0  
A   HY  1072.0  
A   CL1 4435.0  
A   CL2 2971.0  
A   CL1-HY sim  823.5  
A   CL2-HY sim  491.5  
A   CL1+HY mix  2510.5  
A   CL2+HY mix  2484.5  
A   con 2454.0  
A   HY  1180.5  
A   CL1 3249.7  
A   CL2 2106.7  
A   CL1-HY sim  993.0  
A   CL2-HY sim  817.5  
A   CL1+HY mix  1981.0  
A   CL2+HY mix  2687.5  
B   con 1482.0  
B   HY  2084.7  
B   CL1 1498.0  
B   CL2 1258.5  
B   CL1-HY sim  1795.7  
B   CL2-HY sim  1804.5  
B   CL1+HY mix  1633.0  
B   CL2+HY mix  1416.3  
B   con 1339.0  
B   HY  2119.0  
B   CL1 1093.3  
B   CL2 1026.5  
B   CL1-HY sim  2315.5  
B   CL2-HY sim  2048.5  
B   CL1+HY mix  1465.0  
B   CL2+HY mix  2334.5  
C   con 1614.8  
C   HY  1525.5  
C   CL1 426.3  
C   CL2 1192.0  
C   CL1-HY sim  1546.0  
C   CL2-HY sim  874.5  
C   CL1+HY mix  1386.0  
C   CL2+HY mix  364.5  
C   con 1907.5  
C   HY  1152.5  
C   CL1 639.7  
C   CL2 1306.5  
C   CL1-HY sim  1515.0  
C   CL2-HY sim  1251.0  
C   CL1+HY mix  1350.5  
C   CL2+HY mix  1230.5

2
당신이 R과 잘 어울리는 것처럼 보이지만, 어려움이 R과 관련이 없을 수도 있다고 생각합니다. 아마도 문제를 파악하기 위해 먼저 통계 전문가와 상담해야합니다. 그래야만 실제로이 문제를 해결할 수 있습니다. 귀하의 현재 질문은 매우 정교하며 사람들이 문제를 해결하는 것을 방해 할 수 있습니다. : 기술의 경우, 여기에 몇 가지 사이트의 ats.ucla.edu/stat/R/seminars/Repeated_Measures/...personality-project.org/R/r.anova.html
로마 Luštrik

4
순위 순위를 매기는 가장 좋은 대안은 순열 ANOVA ( uvm.edu/~dhowell/StatPages/More_Stuff/Permutation%20Anova/… )를 사용하는 것입니다. 이 접근 방식으로 이분산성은 중요하지 않습니다. 사람들이 순위 테스트를 사용하는 주된 이유는 계산이 훨씬 용이하기 때문입니다. 그것은 더 이상 중요하지 않습니다. 우리는 R과 효율적인 컴퓨터를 가지고 있습니다 ...
Mikko

1
답장은 무엇입니까? 실제로 반응이 정규 분포인지 여부는 신경 쓰지 않습니다. 분석의 잔차가 유사한 분산으로 대략 정규인지 확인하고 싶습니다. 그러나 실제로 치료 효과가 있다면, 우리는 반응이 정상적으로 미미하게 분포 될 것이라고 기대하지 않을 것입니다.
Dason

1
나는 당신이 게시 한 데이터를 잡고 양방향 anova를 실행하고 잔존물에 대해 shapiro wilks 테스트를 수행했으며 이는 p- 값이 0.5022로 너무 큰 걱정거리는 아닙니다.
Dason

1
@Sabine 정규성은 종종 ANOVA와 관련하여 큰 문제가되지 않지만 표본 추출은 동일한 모집단에서 가져와야합니다. 즉, 분산 후의 등식이 무작위 화 후 가장 중요한 가정이라는 의미입니다. 차이가 거의 같지 않으면 무언가를해야합니다 (시도 ?bartlett.test)
Mikko

답변:


12

답변보다 의견이 많을 수도 있지만 의견으로는 적합하지 않습니다. 우리는 여기서 당신을 도울 수 있지만, 이것은 약간의 반복이 필요할 수 있습니다. 우리는 더 많은 정보가 필요합니다.

먼저 응답 변수는 무엇입니까?

둘째, 반응의 한계 분포 가 정상일 필요 는 없으며 모형에 대한 조건부 분포 (즉, 잔차)가되어야합니다. 잔차를 조사한 것이 확실하지 않습니다. 또한, 정규성은 선형 모델 (예를 들어, ANOVA) 의 가장 중요한 가정입니다. 잔차가 완벽하게 정상일 필요는 없습니다. 정규성 검정은 일반적으로 가치가 없지만 ( CV에 대한 설명 은 여기 참조 ) 음모가 훨씬 좋습니다. 나는 당신의 잔차에 대한 QQ 플롯 을 시도 할 것 입니다. 에서 R이 이루어집니다 qqnorm(), 또는 시도 qqPlot()car꾸러미. 잔차가 비정규적인 방식을 고려하는 것도 가치가 있습니다. 특히 왜곡이 그룹간에 방향을 번갈아 가며 왜곡이 과도한 첨도보다 더 손상됩니다.

정말로 걱정할 가치가있는 문제가 있다면 변환은 좋은 전략입니다. 원시 데이터의 로그를 취하는 것이 하나의 옵션이지만 유일한 것은 아닙니다. 센터링 및 표준화는 이러한 의미에서 실제로 변형이 아닙니다. Box & Cox 전력 변환 제품군 을 살펴보고자합니다 . 그리고 결과는 완벽하게 정상일 필요는 없으며 단지 충분할 것입니다.

다음으로, 분산의 동질성에 대한 카이 제곱 검정을 사용하지는 않지만 완벽하게 괜찮을 수도 있습니다. 난 당신이 사용하는 제안 하는 Levene의 시험 (사용 leveneTest()에서을 car). 이질성은 비정규 성보다 더 손상되지만 이질성이 적 으면 분산 분석이 상당히 강력합니다. 일반적인 경험 규칙은 가장 큰 그룹 분산이 큰 문제를 일으키지 않고 최대 4 배까지 작을 수 있다는 것입니다. 좋은 변형은 또한 이질성을 다루어야한다.

이러한 전략이 충분하지 않은 경우 비모수 적 접근을 시도하기 전에 강력한 회귀 분석 을 시도 할 수 있습니다.

질문을 편집하고 데이터에 대해 더 많이 말할 수 있으면 더 구체적인 정보를 제공하기 위해이 정보를 업데이트 할 수 있습니다.


두 번째 요점으로 최근 에이 문제를보다 명확하게하는 데 도움이 되는 답변을 여기 에 작성했습니다 . 당신은 그것을 읽고 싶을 수도 있습니다.
gung-모니 티 복원

8

( 참고 : 이 답변은 질문이 SO에서 마이그레이션 및 병합되기 전에 게시되었으므로 여기에서 다루지 않은 질문에 자세한 내용이 추가되었습니다. 많은 부분이 의견과 답변에서 @gung으로 처리됩니다).

여러 가지 접근 방식이 있으며이 질문은이 사이트의 다른 곳에서 다루어졌습니다. 다음은 사이트의 다른 질문에 대한 링크와 일부 참조가있는 일부 접근 방식 목록입니다.

  1. Box-Cox 전력 변환 은 비선형 스케일의 잔차를 정규화 할 수 있습니다
  2. 순위지정된 데이터에 대한 분산 분석 은 매우 쉽지만 전력이 감소하고 해석하기가 어렵습니다. 참조 코노와 이만 (1981)
  3. 비례 배당 서수 로지스틱 모형
  4. 순열 테스트 ( 앤더슨 TER Braak 2003 )에서 구현되고 설명 앤더슨 과 같이 adonis함수 R 채식주의 패키지
  5. 부트 스트랩
  6. 계층 적 베이지안 모델링 ( Gelman 2005 )

+1, 이것은 사용 가능한 몇 가지 유용한 옵션 목록입니다.
gung-Monica Monica 복원

아래는 원래 스택 오버플로에서 교환 된 주석으로, 마이그레이션 중에 어떻게 든 손실되었습니다. meta.stats.stackexchange.com/q/1157/930을 참조하십시오 .
chl

Anderson과 Braak의 아이디어가 구현되어 있는지 알고 있습니까? - 헨릭 15시 15분 5 월 (16)
CHL

@Henrik은 FORTRAN Anderson 2005에 구현되어 adonis있으며 VeganR 패키지 의 R 함수 를 통해 사용할 수 있습니다 / David May 16 at 16:20
chl

감사. adonis일 변량 dvs에서도 작동하는 것 같습니다. 그러나 나는 메시지를 Terms added sequentially (first to last)실행할 때마다 메시지를 받을 때 유형 1 합의 제곱과 같은 것을 사용한다고 생각 합니다. 사용했거나 그것에 대해 말할 수 있습니까? – Henrik 17:03에 5 월 16 일
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.