2- 표본 순열 테스트에서 꼬리 두배


10

두 개의 표본이 있고 동일한 분포에서 추출되는지 여부를 결정하려고한다고 가정합니다. 표본 A, B는 일부 정수로 구성됩니다.

2- 표본 순열 검정을 사용하여, 특히 표본 평균의 차이가 관측 된 차이만큼 극한 인 순열을 살펴보면서이를 테스트하는 경우 : 양측 p- 하나의 꼬리를보고 확률을 두 배로 늘림으로써 가치?

이것이 강의 노트에서 말하는 것처럼 보이지만 왜 꼬리가 대칭이라고 가정 할 수 있는지 (또는 그 가정을 수반하지 않는 이유) 이해할 수 없습니다. 설명은 다가 오지 않았다.

답변:


10

검정 통계량의 순열 분포는 대칭이 보장되지 않으므로 그렇게 할 수 없습니다. 대신 두 꼬리를 모두 추가합니다. 두 개의 독립적 인 표본의 경우 귀무 가설은 두 위치 매개 변수가 동일하다는 것입니다. 두 그룹 모두에서 지속적인 분포와 균등 한 분포를 가정하면 귀무 가설 하에서 교환 가능성이 있습니다. 검정 통계량 는 평균 차이이며 경우 null입니다.E ( T ) = 0TE(T)=0

원래 샘플에서 의 값 은 T emp 이고 순열의 값 T 입니다. ( ) 는 "number of"무언가의 약자입니다. 예를 들어, ( T ) 는 순열 검정 통계량입니다. 그런 다음 양측 가설 의 p- 값은 p ts = p left + p right입니다 .TTempT()(T)ppts=pleft+pright

pleft=(T<=min(Temp,Temp))(T)

pright=(T>=max(Temp,Temp))(T)

(완전 순열 분포가 있다고 가정). 정확한 (완전한) 순열 분포를 계산할 수있을 때 두 개의 독립적 인 표본의 경우에 대한 두 가지 접근법을 비교해 봅시다.

set.seed(1234)
Nj   <- c(9, 8)                      # group sizes
DVa  <- rnorm(Nj[1], 5, 20)^2        # data group 1
DVb  <- rnorm(Nj[2], 10, 20)^2       # data group 2
DVab <- c(DVa, DVb)                  # data from both groups
IV   <- factor(rep(c("A", "B"), Nj)) # grouping factor
idx  <- seq(along=DVab)              # all indices
idxA <- combn(idx, Nj[1])            # all possible first groups

# function to calculate test statistic for a given permutation x
getDM <- function(x) { mean(DVab[x]) - mean(DVab[!(idx %in% x)]) }
resDM <- apply(idxA, 2, getDM)       # test statistic for all permutations
diffM <- mean(DVa) - mean(DVb)       # empirical stest statistic

이제 값을 계산하고 제안 된 솔루션을 R 패키지 의 구현으로 검증하십시오 . 그 관찰 쪽은 왼쪽P의 권리를 , 당신이 계산하는 방법이 중요하므로 페이지 t .pcoinpleftprightpts

> (pL <- sum(resDM <= min(diffM, -diffM)) / length(resDM))  # left p-value
[1] 0.1755245

> (pR <- sum(resDM >= max(diffM, -diffM)) / length(resDM))  # right p-value
[1] 0.1585356

> 2*pL        # doubling left p-value
[1] 0.351049

> 2*pR        # doubling right p-value
[1] 0.3170712

> pL+pR       # two-sided p-value
[1] 0.3340601

> sum(abs(resDM) >= abs(diffM)) / length(resDM)  # two-sided p-value (more concise)
[1] 0.3340601

# validate with coin implementation
> library(coin)              # for oneway_test()    
> oneway_test(DVab ~ IV, alternative="two.sided", distribution="exact")
Exact 2-Sample Permutation Test
data:  DVab by IV (A, B) 
Z = 1.0551, p-value = 0.3341
alternative hypothesis: true mu is not equal to 0 

PS 순열 분포에서만 표본 추출하는 Monte-Carlo의 경우 은 다음과 같이 정의됩니다.p

pleft=(T<=min(Temp,Temp))+1(T)+1

pright=(T>=max(Temp,Temp))+1(T)+1

pts=(abs(T)>=abs(Temp))+1(T)+1

p


T

E(T)=0

고마워, 그것은 개선입니다. 그렇다면이 가정에서 통계가 어떻게 대칭 분포를 갖지 못하는지 설명 할 수 있습니까?
whuber

2
T=1,.5,.5

설명 주셔서 감사합니다 : 나는 지금 논리를 따릅니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.