단일 표본과 평균을 비교하는 순열 검정


10

사람들이 단일 표본과 평균을 비교하기 위해 순열 테스트를 구현할 때 (예 : 순열 t- 검정에서와 같이) 평균은 어떻게 처리됩니까? 순열 테스트에 대한 평균과 샘플을 취하는 구현을 보았지만 실제로 수행중인 작업이 확실하지 않습니다. 하나의 표본에 대해 추정 평균에 대한 순열 검정 (예 : t- 검정)을 수행하는 의미있는 방법이 있습니까? 아니면 대안 적으로 그들은 기본적으로 비 순열 테스트로 기본 설정되어 있습니까? (예를 들어, 순열 함수를 호출하거나 순열 테스트 플래그를 설정하거나 기본적으로 표준 t- 검정 또는 유사한 함수로 설정)

표준 2 표본 순열 검정에서는 두 그룹이 있고 레이블 할당을 무작위로 지정합니다. 그러나 하나의 "그룹"이 가정 된 평균 일 때 어떻게 처리됩니까? 당연히 가정 평균에는 표본 크기가 없습니다. 그렇다면 평균을 순열 형식으로 처리하는 일반적인 방법은 무엇입니까? "평균"샘플이 단일 지점으로 간주됩니까? 샘플 그룹과 동일한 크기의 샘플? 무한한 크기의 샘플?

가정 된 평균이 있다고 가정하면, 기술적으로 무한한 지원이나 그에 대한 지원이 있다고 가정합니다. 그러나 이들 중 어느 것도 실제 계산에 매우 유용하지는 않습니다. 값이 모두 평균과 같은 크기의 표본은 때로는 일부 테스트에서 수행되는 것으로 보입니다 (예 : 쌍의 다른 절반을 가정 된 위치로 채 웁니다). 분산이없는 것으로 가정 한 평균이 올바른지 알 수있는 동일한 길이의 샘플이므로 약간 의미가 있습니다.

그래서 내 질문은 이것입니다 : 실제로 사람들은 실제로 두 번째 세트가 평균 (또는 유사한 추상 가정 값) 일 때 순열 테스트 스타일 레이블 무작위 화를 모방합니까? 그렇다면 사람들은 라벨 무작위 화를 어떻게 처리합니까?


6
특정 가정 된 평균의 순열 검정은 데이터에서 가정 된 평균을 빼고 평균 0에 대한 검정과 다르지 않습니다. 페어링 테스트는 여기에서 설명 합니다 . 그것은 널 (null) 하에서 쌍들이 같은 분포를 가지고 있다고 가정하며, 이는 후속 1- 표본 검정의 기초가되는 차이가 대칭으로 간주됨을 의미합니다. 이를 바탕으로 각 차이에 따라 표시가 무작위로 뒤집
힙니다

1
(ctd) ... (페어링 된 테스트의 경우 그룹 레이블을 뒤집는 것과 같습니다). 글쎄, 그것은 무작위 화 테스트를위한 것입니다. 완전 순열 테스트를 위해서는 가능한 모든 부호-플립 조합을 수행해야합니다 . 대칭을 가정 할 수 없다면, 무엇을 퍼머 트할지 알기가 어렵지만 여전히 부트 스트랩 테스트를 수행 할 수 있어야합니다. 2n
Glen_b-복지 주 모니카

말이 되네요 그러나 나는 사람들이하는 계산 구현에서 조금 생각하고 있습니다. 부호 테스트로 변환 할 수 있다면 사람들이 실제로 순열 계산을 귀찮게합니까? 길이가 N 인 시퀀스의 경우 부호 뒤집기의 전체 순열 세트는 동일합니다. 그래서 나는 후드 아래에서 사람들이 이항 분포를 만드는 순열을 수동으로 생성하는 대신 이항 테스트로 퍼널 수 있다고 생각합니다. 나는 주로 단일 표본 대 평균 사례에서 표준 테스트를 사용하는 것보다 레이블을 바꾸고 치환하는 것이 이점이 있는지 궁금합니다.
Namey

나는 그것을 사인 테스트로 변환하는 것을 전혀 제안하지 않았다. 그 계획에서 내가 서명하지 않았다는 표시는 바뀌었지만 원래 데이터의 절대 값은 유지됩니다. 순열 있다여기서 는 또는 입니다. 즉, 평균 0에 대한 단일 표본 테스트에서 이 11.43 인 경우 순열 된 은 모두 -11.43 또는 +11.43입니다. 절대 데이터를 먼저 순위 매기는 경우 실제로 Wilcoxon 부호가있는 순위 테스트로 끝나므로 순위가없는 (원래 데이터) 버전과 같습니다. kthxisi[k]|xi|s+11x10x10
Glen_b-복지 주 모니카

답변:


6

Glen_b 의 의견을 답변으로 확장

제로 평균의 귀무 가설에 대한 샘플 평균에 대한 대략적인 1- 샘플 순열 테스트는 샘플의 데이터에 임의의 부호를 할당하여 구현됩니다. 데이터에서 원하는 귀무 평균을 빼서 0이 아닌 귀무 가설을 검정 할 수 있습니다.

이것은 onetPermutation패키지 의 R 함수 소스에서 쉽게 볼 수 DAAG있습니다. 다음은 관련 코드에서 발췌 한 내용이며 추가 한 주석이 있습니다.

function (x, nsim) {

  ## Initialize and pre-allocate

  n <- length(x)
  dbar <- mean(x)
  absx <- abs(x)  # there's actually a bug in the code; below you'll see that the function ends up re-computing abs(x) instead of using this
  z <- array(, nsim)


  ## Run the simulation    

  for (i in 1:nsim) {                             # Do nsim times:
      mn <- sample(c(-1, 1), n, replace = TRUE)   #  1. take n random draws from {-1, 1}, where n is the length of the data to be tested
      xbardash <- mean(mn * abs(x))               #  2. assign the signs to the data and put them in a temporary variable
      z[i] <- xbardash                            #  3. save the new data in an array
  }


  ## Return the p value
  # p = the fraction of fake data that is:
  #      larger than |sample mean of x|, or
  #    smaller than -|sample mean of x|

  (sum(z >= abs(dbar)) + sum(z <= -abs(dbar)))/nsim
}

abs위 코드에서 의 기능은 무엇입니까 ? 레이블이 뒤집 히지 않으면 레이블이 무작위로 동일하지 abs않습니까?
Matthew Brett
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.