여기에 1을 추가하면이 트릭은 무엇입니까?


11

Lillefors 테스트의 Monte Carlo 구현 에서이 페이지 를 보고있었습니다 . 이 문장을 이해하지 못합니다 :

시뮬레이션에서이 계산에 임의의 오류가 있습니다. 그러나 P- 값을 계산할 때 분자와 분모에 1을 더하는 트릭으로 인해 임의성을 고려하지 않고 바로 사용할 수 있습니다.

분자와 분모에 1을 더하는 것의 의미는 무엇입니까?

관련 코드는 다음과 같습니다.

n <- length(x)
nsim <- 4999
d.star <- double(nsim)
for (i in 1:nsim) {
    x.star <- rnorm(n)
    d.star[i] <- fred(x.star)
}
hist(d.star)
abline(v = d.hat, lty = 2)
## simulation-derived P-value
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)

여기에 관련 컨텍스트를 추가 할 수 있습니까?
gung-복직 모니카

4
확률의 Monte Carlo 추정값에 대한 Laplace 스무딩 처럼 보입니다 . @Tim이 지적했듯이 주요 효과는 아마도 p- 값이 0이되는 것을 피하는 것입니다 (0 시뮬레이션을 수행하지 않는 한 그가 말한대로 0으로 나눌 위험은 없지만). 그래도 왜 이것이 "임의성에 관계없이"사용할 수 있는지 모르겠습니다.
Dougal

2
문장이 무엇을 의미하는지 물어보기 위해 Geyer를 직접 작성 했습니까?
Alexis

@Alexis, 아닙니다. 그러나 좋은 생각입니다.
Aksakal

@Dougal, 예, Laplace 스무딩처럼 보입니다. 그가 왜 그것을 적용하고 있는지는 확실하지 않습니다.
Aksakal

답변:


6

참조 페이지에 대한 설명은

Pr(Pk/nsim)k/nsim

이것을 이해하기 위해 우리는 코드를 살펴 봐야합니다.

fred <- function(x) {ks.test(...)$statistic}  # Apply a statistical test to an array
d.hat <- fred(x)                              # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
                2, fred)                      # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value

두드러진 문제는 코드가 견적과 일치하지 않는다는 것입니다. 우리는 그것들을 어떻게 조화시킬 수 있습니까? 한 번의 시도는 인용의 마지막 절반으로 시작합니다. 절차를 다음 단계로 구성하는 것으로 해석 할 수 있습니다.

  1. 확률 법칙 에 따라 독립적으로 동일하게 분포 된 데이터 수집 합니다. 숫자 을 생성하기 위해 테스트 절차 (코드로 구현 됨 )를 적용하십시오 . G t T 0 = t ( X 1 , , X n )X1,X2,,XnGtfredT0=t(X1,,Xn)

  2. 확률 법칙 가있는 귀무 가설에 따라 각각 크기가 인 컴퓨터 비교 가능한 데이터 세트 를 통해 생성 합니다 . 이러한 각 데이터 세트에 를 적용 하여 숫자 . n F t N T 1 , T 2 , , T NN=nsimnFtNT1,T2,,TN

  3. 계산

    P=(i=1NI(Ti>T0)+1)/(N+1).

    ( " "벡터 값 비교에 의해 구현되는 지시 함수 인 코드한다.)가 오른쪽이 덕분 랜덤 인 것으로 이해된다 동시 의 임의성 (실제 통계량) 의 랜덤 ( 시뮬레이션 된 테스트 통계). T 0 T iId.star > d.hatT0Ti

데이터가 귀무 가설에 부합한다고 말하는 것은 를 주장하는 것 입니다. 테스트 크기 , . 양변을 곱 감산 가능성이 있다고 보여 임의 번호 더 이상있는 기회 초과하지 . 이것은 단지 이 모든 테스트 통계 의 정렬 된 세트의 상위 내에 있다는 것입니다 . (건설)F=Gα0<α<1N+11Pαα(N+1)α1TiT0T0(N+1)αN+1T0모든 무관 경우, 연속 분포이 기회 정수 부분으로 표시되는 총 분율 것이다 ; 즉, 제공 한 것과 정확히 동일합니다 는 정수 . 즉, .TiF(N+1)α(N+1)αkα=k/(N+1)

Pr(Pα)=(N+1)αN+1α
(N+1)αkα=k/(N+1)

이것은 확실히 "p- 값"이라고 할 가치가있는 모든 수량에 대해 진실되고 싶은 것 중 하나입니다 . 에 균일 한 분포를 가져야합니다 . 제공자 그래서 어떤 것이 상당히 크다 가까운 형태의 일부 분율이다 이 확대 균일 할 것 분포. (p- 값에 필요한 추가 조건에 대해 알아 보려면 p- 값 주제에 게시 한 대화 상자 를 읽으 십시오. )N + 1 α k / ( N + 1 ) = k / ( n sim + 1 ) P[0,1]N+1αk/(N+1)=k/(nsim+1)P

분명히 인용이 "를 사용한다 대신"의 " "이 나타납니다 곳.N SIMnsim+1nsim


5

관측 된 통계가 참조 분포에 포함되어 있기 때문에 여기에 1이 추가된다고 생각합니다. 이 경우 p- 값 정의의 "적어도 큰"부분 때문입니다.

텍스트가 다른 말을하고있는 것처럼 보이기 때문에 확실하지 않습니다. 그러나 그것이 제가하는 이유입니다.


1
@ whuber 나는 어떻게 동의 할 수 있는지 모르겠습니다. 모든 테스트가 우도 비 테스트는 아닙니다. 그들이 LRT가 아닌 경우, 가능성 비율 측면에서 그것을 해석 할 수있는 관련성은 무엇입니까?
Glen_b-복지 주 모니카

1
@whuber 확실히 할 수 있습니다. 그러나 예를 들어 Wilcoxon-Mann-Whitney (또는 실제로 순열 테스트가 더 광범위 함)를 고려하십시오. Lilliefors 검정이나 우도 비 검정이 아닌 광범위하게 사용되는 완벽하게 합리적인 수의 검정이 많이 있습니다. 검정력에 대한 명확한 대안이있을 때, 검정 통계량에 의해 주어진 표본 공간의 순서가 완벽하게 이해되고 광범위한 대안에서 합리적인 특성을 갖는 의미있는 검정 통계량을 구성하는 것이 종종 가능합니다.
Glen_b-복지 주 모니카

1
확실히 어떤 대안에 관심이있는 대안의 종류 (더 큰 값이든 작은 값이든 둘 다든 더 극단적 인 값을 취한다는 의미에서)에 대한 테스트 통계가 나올 때, "-허용 할 수없는 테스트 (실제로는 쓸모없는 테스트)를 사용해야하더라도 시뮬레이션 된 결과에 관찰 된 샘플을 포함시키는 것에 대한 나의 대답에 제시된 원칙은 여전히 ​​적용됩니다. 주문을 한 후에는 최고가 아니더라도 p- 값을 계산할 때 관찰 된 사례가 여전히 카운트에 속합니다.
Glen_b-복지 모니카

2
@ whuber 우리는 지금 멀지 않을 수도 있습니다. 합리적인 테스트 통계를 선택할 때 우리는 확실히 무언가 에 호소하고 싶을 입니다. 그러나 우리가 테스트 통계를 얻은 후에는 (널에서 시뮬레이션 할 때 반드시 가져야 함) 이미 수행했습니다. 그리고 일단 우리가 p- 값을 계산할 때 관찰 된 사례를 포함시키는 이유는 p- 값이 무엇인지에 대한 것입니다.
Glen_b-복지 모니카

1
나는 우리가 전혀 차이가 없다고 생각합니다. (나의 대답은 관찰 된 표본을 카운트에 포함시키는 것이 적절하다는 것을 분명히합니다.) 나의 의견은 질문에 대한 귀하의 답변에 대한 것이 아니고 (동의하고 반대되는), 적어도 문제가되는 문구 " "큰." 이 문구가이 사이트 (및 다른 곳)의 많은 곳에서 잘못 해석되어 독자들이 실제로 의미 하는 바에주의를 끌기를 원했습니다 .
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.