2 X 3 테이블에서 다중 사후 카이-제곱 테스트를 수행하는 방법은 무엇입니까?


9

내 데이터 세트는 해안, 미드 채널 및 해양의 세 가지 사이트 유형에서 유기체의 총 사망률 또는 생존율로 구성됩니다. 아래 표의 숫자는 사이트 수를 나타냅니다.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

100 % 사망률이 발생한 사이트 수가 사이트 유형에 따라 중요한지 알고 싶습니다. 2 x 3 카이 제곱을 실행하면 중요한 결과를 얻습니다. 실행할 수 있거나 실제로 이항 분포와 함께 로지스틱 분산 분석 또는 회귀 분석을 사용해야하는 사후 쌍 쌍 비교가 있습니까? 감사!

답변:


7

분할 표는 두 축의 상호 배타적 범주를 모두 포함해야합니다. Inshore / Midchannel / Offshore는 괜찮아 보이지만이 생물학적 환경에서 "100 % 미만의 사망률"이 "100 % 생존"을 의미하지 않는 한 관찰 된 모든 사례를 설명하거나 분석을 극한으로 제한하는 이유를 설명하는 테이블을 구성해야 할 수도 있습니다. 샘플의 끝.

100 % 생존은 0 % 사망률을 의미하므로 100 % = mortality / 100 %> mortality> 0 % / mortality = 0 % 열이있는 테이블을 가질 수 있습니다. 이 경우 더 이상 백분율을 비교하지 않지만 세 가지 사이트 유형 범주에서 서수 사망률을 비교합니다. (카테고리 대신 원래 백분율 값을 사용하는 것은 어떻습니까?) Kruskal-Wallis 테스트 버전이 적절하게 고려되는 버전이 적합 할 수 있습니다 (순열 테스트 일 수 있음).

Kruskal-Wallis 테스트에 대해 확립 된 사후 테스트가 있습니다 : 1 , 2, 3 . 리샘플링 방식은 관계를 해결하는 데 도움이 될 수 있습니다.

로지스틱 회귀 및 이항 회귀는 p 값뿐만 아니라 효과 크기의 유용한 추정치 및 신뢰 구간을 제공하기 때문에 훨씬 나을 수 있습니다. 그러나 이러한 모델을 설정하려면 100 %> 사망률> 0 % 사이트에 대한 자세한 정보가 필요합니다.


4

"100 % 생존"은 사이트에 단일 유기체 만 포함되어 있다고 가정합니다. 30은 30 개의 유기체가 죽었고 31은 31 개의 유기체가 죽지 않았다는 것을 의미합니다. 이를 바탕으로 카이-제곱은 양호해야하지만 데이터에 의해 지원되지 않는 가설 만 알려줍니다. 두 개의 합리적인 가설이 더 나은지 여부는 알 수 없습니다. 이 정보를 추출하는 확률 분석을 제시합니다. 카이-제곱 검정에 동의하지만 카이-제곱 검정보다 더 많은 정보를 제공하고 결과를 제시하는 더 좋은 방법입니다.

모델은 "죽음"의 표시를위한 bernouli 모델, ( 의 셀이고 테이블 및 내의 개별 유닛을 나타낸다 세포).YijBin(1,θij)i2×3j

카이-제곱 검정에는 두 가지 전제 가정이 있습니다.

  1. 표의 지정된 셀에서 는 모두 같습니다. 즉,θijθij=θik=θi
  2. 주어진 통계적으로 독립적 . 즉, 확률 매개 변수는 에 대한 모든 것을 알려줍니다. 를 알고 있으면 다른 모든 정보는 관련이 없습니다.YijθiYijθi

나타내고 의 합으로 , (그래서 및하자) 그룹 크기 (그래서 ). 이제 테스트 할 가설이 있습니다.XiYijX1=30,X2=10,X3=1나는1=61,2=30,=11

H:θ1=θ2,θ1=θ,θ2=θ

그러나 대안은 무엇입니까? 나는 같거나 같지 않은 다른 가능한 조합을 말할 것입니다.

H1:θ1θ2,θ1θ,θ2=θ
H2:θ1θ2,θ1=θ,θ2θ
H:θ1=θ2,θ1θ,θ2θ
H:θ1θ2,θ1θ,θ2θ

위의 "전역"가정을 고려할 때 이러한 가설 중 하나가 맞아야합니다. 그러나 이들 중 어느 것도 요율에 대한 특정 값을 지정하지 않으므로 통합해야합니다. 이제 가 참이면, 우리는 하나의 매개 변수 (모두가 같기 때문에) 만 가지고 있으며, 균일 한 선행은 보수적 인 선택이며, 이것과 전체 가정을 합니다. 그래서 우리는 :H나는0

(엑스1,엑스2,엑스|1,2,,H,나는0)=01(엑스1,엑스2,엑스,θ|1,2,,H,나는0)θ
=(1엑스1)(2엑스2)(엑스)01θ엑스1+엑스2+엑스(1θ)1+2+엑스1엑스2엑스θ
=(1엑스1)(2엑스2)(엑스)(1+2++1)(1+2+엑스1+엑스2+엑스)

이것은 초 분산 분포를 상수로 나눈 것입니다. 마찬가지로위한 우리 것이다 : H1

(엑스1,엑스2,엑스|1,2,,H1,나는0)=01(엑스1,엑스2,엑스,θ1θ2|1,2,,H1,나는0)θ1θ2
=(2엑스2)(엑스)(1+1)(2++1)(2+엑스2+엑스)

다른 사람들의 패턴을 볼 수 있습니다. 위의 두 표현식을 간단히 나누어 에 대한 확률을 계산할 수 있습니다 . 답은 약 인데, 이는 데이터 가 보다 를 지원한다는 의미입니다. 이는 동일한 비율을 선호하는 약한 증거인 약 배입니다 . 다른 확률은 다음과 같습니다.HV에스H14HH14

H와이영형h이자형에스나는에스아르 자형영형나는나는와이(H|)0.018982265(H1|)0.004790669(H2|)0.051620022(H|)0.484155874(H|)0.440451171

이것은 동일한 비율에 대한 강력한 증거를 보여 주지만, 명확한 대안으로 명확한 대안을 선호하지는 않습니다. "해외"비율이 다른 두 가지 비율과 다르다는 강력한 증거가있는 것처럼 보이지만 "해상"과 "중 채널"비율이 다른지에 대한 결정적인 증거가 있습니다. 이것이 카이-제곱 검정이 말해주지 않는 것입니다-가설 는 "거짓"이지만 그 대신 어떤 대안을 제시 할 수는 없습니다


1

다음은 카이 제곱 테스트를 수행하고 다양한 테스트 통계를 생성하는 코드입니다. 그러나 테이블 여백의 연관성에 대한 통계 테스트는 여기서 쓸모가 없습니다. 답은 분명하다. 여름이 겨울보다 더 뜨거운 지 확인하기위한 통계 테스트는 없습니다.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)

3
다른 R 구문 (및 기본 테스트)에 대한 세부 정보를 제공 할 수 있고 특히 Kruskal-Wallis 테스트가 로그 선형 모델과 비교되는 방식에 대한 세부 정보를 제공 할 수 있다면 독자 (및 OP)에게 흥미로울 것입니다.
chl

코드를 복사하여 R 콘솔에 붙여 넣어이를 확인할 수 있습니다.
Patrick McCann

1
확실한. 물론 코드를 실행하여 응답을받습니다.
chl

0

다중 비교를 위해 "동시 신뢰 구간"을 사용할 수 있다고 생각합니다. 참고 문헌은 Agresti et al. 이항 모수를 비교하기위한 2008 동시 신뢰 구간. 생체 인식 64 1270-1275.

http://www.stat.ufl.edu/~aa/cda/software.html 에서 해당 R 코드를 찾을 수 있습니다

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.