신뢰 구간에 속하지 않은 가설과 동일한 p- 값을 사용하여 가설을 기각합니까?


29

공식적으로 추정치의 신뢰 구간을 도출하면서 p 값이 계산 되는 방식과 매우 유사한 공식으로 끝났습니다 .

따라서 질문은 공식적으로 동등합니까? 즉,이 가설은 거부된다 H0=0 임계 값 α 에 해당 0 임계 값과의 신뢰 구간에 속하지 않는 α ?


2
@f coppens : 그렇습니다. 두 개의 테스트를 사용하고 통계가 다르면 두 개의 서로 다른 신뢰 구간이 생깁니다. 그러나 OP가 기본적인 사실을 발견했다고 생각합니다. 신뢰 구간과 p- 값은 동일한 통계량의 분포에서 얻으므로 둘 다 귀무 가설을 기각할지 여부를 결정하는 데 사용할 수 있습니다.
StijnDeVuyst

1
@StijnDeVuyst : 비율에 대한 Clopper / Pearon 구간과 비율에 대한 Sterne 구간은 모두 같은 크기의 이항 분포에서 파생됩니다 (p는 p에 대한 신뢰 구간을 찾기 때문에 알 수 없음). Clopper / Pearson과 Sterne의 차이점은 이항 밀도의 비대칭 성 때문입니다. Sterne interval은 간격의 폭을 최소화하려고 시도하고 Clopper_pearson은 대칭을 유지하려고 시도합니다 (그러나 이항의 왜도 때문에 대략적으로 만 찾을 수 있습니다).

6
일반적으로 아닙니다. 구간의 너비가 추정 된 모수 값의 함수 인 경우를 고려하고 구간의 너비는 가정 된 것의 함수입니다. 명백한 예는 이항 p를 테스트하는 것입니다. 법선 약을 사용합시다. 단순성을 위해 (논쟁의 형태는 그것에 의존하지 않지만). n = 10, p = 0.5의 널을 고려하십시오. 2 개의 머리를 관찰한다고 상상해보십시오. 널이 거부되지 않습니다 ( "2"가 약 95 % 간격 내에 약 0.5이므로). p에 대한 CI는 0.5를 포함하지 않습니다 (CI가 널 아래의 간격 너비보다 좁기 때문에
Glen_b -Reinstate Monica

4
또는 정규 근사치가 양호 할 정도로 충분히 커야하는 경우 1000 토스로 469 헤드를 시도하십시오. H0 p = 0.5; p의 95 % CI에는 0.5가 포함되지 않지만 5 % 테스트는 거부되지 않습니다. H0의 해당 간격 폭은 대안 (아래에서 CI를 수행하는 것)보다 넓기 때문입니다.
Glen_b-복지국 Monica

4
@ Glen_b :이 새로운 질문 stats.stackexchange.com/questions/173005 는 여기에 설명 한 상황의 예를 제공하는 것 같습니다 .
아메바는

답변:


32

예, 아니오

먼저 "예"

관찰 한 것은 검정과 신뢰 구간이 동일한 통계량을 기반으로 할 때 둘 사이에 동등성이 있다는 것입니다. 값을 매개 변수의 null 값이 갖는 α 의 가장 작은 값으로 해석 할 수 있습니다. 에 포함되는 1 - α의 신뢰 구간.pα1α

하자 파라미터 공간에서 미지 파라미터 수 Θ R 및하자 시료 (X) = ( X 1 , ... , X의 n은 ) X NR n은 랜덤 변수의 실현 될 X = ( X 1 , ... , X의 N ) . 간단히하기 위해 신뢰 구간 I α ( X )적용 범위 확률 P θ가 되도록 임의 구간으로 정의하십시오.θΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X) (커버리지 확률이 1 - α 로 제한되거나 대략 1 - α 인 일반적인 간격을 비슷하게 고려할 수있습니다. 추론은 유사합니다.)

Pθ(θIα(X))=1αfor all α(0,1).
1α

대안 H 1 ( θ 0 ) 에 대한 점-널 가설 양측 검정 : θ θ 0을 고려하십시오 . 하자 λ ( θ 0 , X ) 테스트의 P 값을 나타낸다. 어떤 옵션 α ( 0 , 1 ) , H 0 ( θ 0 ) λ ( θ 0 ,H0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0) 레벨에서 거부 경우α . 레벨 α 제거 영역의 집합이며 , X 의 제거로 이어질 H 0 ( θ 0 ) : R α ( θ 0 ) =을 { XR N : λ ( θ 0 , X ) α } .λ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

이제 θ Θ에 대해 p- 값이 인 양면 테스트 패밀리를 고려하십시오 . 이러한 가정을 위해 우리는 정의 할 수 반전 거절 영역 Q의 α를 ( X ) = { θ Θ : λ ( θ , X ) α } .λ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

고정 된 , xR α ( θ 0 ) 인 경우 H 0 ( θ 0 ) 은 기각되며 , 이는 θ 0Q α ( x ) , 즉 xR α ( θ 0 ) 인 경우에만 발생합니다 θ 0Q α ( x ) . 검정이 완전히 연속적으로 널 분포를 완전히 지정한 검정 통계량을 기반으로하는 경우θ0H0(θ0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
λ(θ0,X)U(0,1)H0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θ
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
it follows that the random set Qα(x) always covers the true parameter θ0 with probability α. Consequently, letting QαC(x) denote the complement of Qα(x), for all θ0Θ we have
Pθ0(θ0QαC(X))=1α,
meaning that the complement of the inverted rejection region is a 1α confidence interval for θ.

An illustration is given below, showing rejection regions and confidence intervals corresponding to the the z-test for a normal mean, for different null means θ and different sample means x¯, with σ=1. H0(θ) is rejected if (x¯,θ) is in the shaded light grey region. Shown in dark grey is the rejection region R0.05(0.9)=(,1.52)(0.281,) and the confidence interval I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120). enter image description here

(Much of this is taken from my PhD thesis.)

Now for the "no"

Above I described the standard way of constructing confidence intervals. In this approach, we use some statistic related to the unknown parameter θ to construct the interval. There are also intervals based on minimization algorithms, which seek to minimize the length of the interval condition on the value of X. Usually, such intervals do not correspond to a test.

This phenomenon has to do with problems related to such intervals not being nested, meaning that the 94 % interval can be shorter than the 95 % interval. For more on this, see Section 2.5 of this recent paper of mine (to appear in Bernoulli).

And a second "no"

In some problems, the standard confidence interval is not based on the same statistic as the standard test (as discussed by Michael Fay in this paper). In those cases, confidence intervals and tests may not give the same results. For instance, θ0=0 may be rejected by the test even though 0 is included in the confidence interval. This does not contradict the "yes" above, as different statistics are used.

And sometimes "yes" is not a good thing

As pointed out by f coppens in a comment, sometimes intervals and tests have somewhat conflicting goals. We want short intervals and tests with high power, but the shortest interval does not always correspond to the test with the highest power. For some examples of this, see this paper (multivariate normal distribution), or this (exponential distribution), or Section 4 of my thesis.

Bayesians can also say both yes and no

Some years ago, I posted a question here about whether a test-interval-equivalence exists also in Bayesian statistics. The short answer is that using standard Bayesian hypothesis testing, the answer is "no". By reformulating the testing problem a little bit, the answer can however be "yes". (My attempts at answering my own question eventually turned into a paper!)


2
Nice answer (+1) and (you partially do that) it may be good to point to the fact that sometimes confidence intervals and hypothesis tests have (potentially) conflicting goals: one tries to find a confidence interval 'as small as possible' while for hypothesis testing one tries to find a critical region 'as powerful as possible'.

@fcoppens: Thanks for the suggestion! I've updated my answer with some lines about this.
MånsT

NIce thesis ! Did you work on Sterne interval as well ?

@fcoppens: Yes, I've done some work the Sterne interval, mainly in this paper
MånsT

7
@amoeba: Actually, I think that his "no" is my second "no". As far as I can tell, he bases the confidence interval on the statistic T1=(p^p)/p^(1p^)/n and the test on the statistic T2=(p^p)/p(1p)/n. Note the difference in the denominator. You can construct tests and intervals using either statistic, and as long as you use the same statistic for both, there will be no discrepancy.
MånsT

2

When looking at a single parameter, it is possible that a test about the value of the parameter and the confidence interval "mismatch" depending on how they are constructed. In particular, a hypothesis test is a level α-test, if it rejects the null hypothesis a proportion α of the time when the null hypothesis is true. For that reason one can e.g. use estimates of model parameters (e.g. the variance) that are only valid under the null hypothesis. If one then tried to construct a CI by inverting this test, the coverage may be not quite right under the alternative hypothesis. For that reason one would usually construct a confidence interval differently so that the coverage is also right under the alternative, which can then lead to a (usually very small) mismatch.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.