t- 검정에 대한 신뢰 구간과 검정 통계 가설의 관계

31

신뢰 구간과 통계적 가설 테스트는 밀접한 관련이있는 것으로 잘 알려져 있습니다. 내 질문은 숫자 변수를 기반으로 두 그룹의 평균을 비교하는 데 중점을 둡니다. 이러한 가설이 t- 검정을 사용하여 테스트되었다고 가정 해 봅시다. 반면에 두 그룹 모두에 대한 신뢰 구간을 계산할 수 있습니다. 신뢰 구간의 겹침과 평균이 같은 귀무 가설의 기각 간에는 어떤 관계가 있습니까? 예를 들어 신뢰 구간이 겹치지 않으면 검정에서 귀무 가설을 기각 할 수 있습니다.

hypothesis-testing confidence-interval

— 란
소스

31

예, 광범위한 실제 설정에서 신뢰 구간 비교와 가설 검정 간에는 간단한 관계가 있습니다. 그러나 CI 절차 및 t- 검정이 데이터에 적합한 지 확인하는 것 외에도 표본 크기가 너무 다르지 않고 두 세트의 표준 편차가 비슷한 지 확인해야합니다. 또한 두 신뢰 구간을 비교하여 매우 정확한 p- 값을 도출하려고 시도하지 말고 효과적인 근사값을 개발하게되어 기쁩니다.

@John과 @Brett에 의해 이미 주어진 두 개의 회신을 조정하려고하면 수학적으로 명시 적으로 표현하는 데 도움이됩니다. 이 질문의 설정에 적합한 대칭 양면 신뢰 구간에 대한 공식은 다음과 같습니다.

CI = m \pm \frac{t_{α} (n) s}{\sqrt{n}}

$\text{CI} = m \pm \frac{t_\alpha(n) s}{\sqrt{n}}$

여기서 $m$ 은 $n$ 독립적 인 관측치 의 표본 평균이고 , $s$ 는 표본 표준 편차이며, $2\alpha$ 는 원하는 검정 크기 (최대 오 탐율)이며 $t_\alpha(n)$ 은 학생 t 분포 의 상위 $1-\alpha$ 백분위 수입니다. 와 $n-1$ 자유도. (기존의 표기법과의 약간의 편차는 $n$ 대 $n-1$ 구분에 대한 소란을 피함으로써 어설 션을 단순화 합니다. 어쨌든 결과는 중요하지 않습니다.)

아래 첨자 $1$ 과 $2$ 를 사용하여 비교를 위해 두 개의 독립적 인 데이터 세트를 구별 하고 , $1$ 이 두 평균 중 큰 값에 해당하면 비 균일 신뢰 구간은 불평등 (낮은 신뢰 한계 1) $\gt$ (높은 신뢰 한계 2)로 표시됩니다. ); 즉. ,

m_{1} - \frac{t_{α} (n_{1}) s_{1}}{\sqrt{n_{1}}} > m_{2} + \frac{t_{α} (n_{2}) s_{2}}{\sqrt{n_{2}}} .

$m_1 - \frac{t_\alpha(n_1) s_1}{\sqrt{n_1}} \gt m_2 + \frac{t_\alpha(n_2) s_2}{\sqrt{n_2}}.$

이것은 간단한 대수 조작으로 해당 가설 검정 (두 가지 방법을 비교하기 위해)의 t- 통계처럼 보이도록 만들 수 있습니다.

\frac{m_{1} - m_{2}}{\sqrt{s_{1}^{2} / n_{1} + s_{2}^{2} / n_{2}}} > \frac{s_{1} \sqrt{n_{2}} t_{α} (n_{1}) + s_{2} \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} s_{2}^{2} + n_{2} s_{1}^{2}}} .

$\frac{m_1-m_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \gt \frac{s_1\sqrt{n_2}t_\alpha(n_1) + s_2\sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 s_2^2 + n_2 s_1^2}}.$

왼쪽은 가설 검정에 사용 된 통계입니다. 그것은 일반적으로 $n_1+n_2$ 자유도, 즉 $t_\alpha(n_1+n_2)$ 를 갖는 Student t 분포의 백분위 수와 비교됩니다 . 오른쪽은 원래 t 분포 백분위 수의 치우친 가중 평균입니다.

지금까지의 분석은 @Brett의 답변을 정당화합니다. 간단한 관계는 없습니다. 그러나 더 조사해 봅시다. 나는 때문에 그렇게 할 영감을하고, 직관적으로, 신뢰 구간의 비 중복 한다고 뭔가 말을!

먼저,이 형식의 가설 검정은 $s_1$ 과 $s_2$ 가 적어도 거의 같을 것으로 예상되는 경우에만 유효합니다 . (그렇지 않으면 우리는 악명 높은 Behrens-Fisher 문제 와 그 복잡성에 직면합니다 .) $s_i$ 의 대략적인 동등성을 확인하면 다음과 같은 형태로 대략적인 단순화를 만들 수 있습니다.

\frac{m_{1} - m_{2}}{s \sqrt{1 / n_{1} + 1 / n_{2}}} > \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} .

$\frac{m_1-m_2}{s\sqrt{1/n_1 + 1/n_2}} \gt \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}.$

여기에서 $s \approx s_1 \approx s_2$ 입니다. 현실적으로 신뢰 한계에 대한이 비공식적 인 비교가 $\alpha$ 와 크기가 같을 것으로 기 대해서는 안됩니다 . 우리의 질문 은 오른쪽이 (적어도 대략) 올바른 t 통계량과 같은 $\alpha'$ 가 있는지 여부 입니다. 즉, $\alpha'$ 는

t_{α^{'}} (n_{1} + n_{2}) = \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} ?

$t_{\alpha'}(n_1+n_2) = \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}\text{?}$

동일한 표본 크기의 경우 $\alpha$ 와 $\alpha'$ 는 전력 법칙에 의해 (정확히 정확도로) 연결되어 있습니다. 예를 들어, 여기에 $n_1=n_2=2$ (가장 낮은 파란색 선), $n_1=n_2=5$ (중간 빨간색 선), $n_1=n_2=\infty$ ( 두 경우)에 대한 두 가지 로그 로그 그림이 있습니다. 최고 금선). 가운데 녹색 점선은 아래에 설명 된 근사치입니다. 이 곡선의 진 직도는 전력 법칙입니다. 따라 다릅니다. $n=n_1=n_2$ 이지만 많지는 않습니다.

줄거리 1

답은 $\{n_1, n_2\}$ 세트에 따라 다르지만 표본 크기의 변화에 따라 실제로 얼마나 많은지 궁금해하는 것은 당연합니다. 특히, 중간 크기에서 큰 샘플 크기 ( $n_1 \ge 10, n_2 \ge 10$ 또는 그 정도)의 경우 샘플 크기에 큰 차이 가 없을 것으로 기대할 수 있습니다. 이 경우 를 에 관련시키는 정량적 방법을 개발할 수 있습니다 . $\alpha'$ $\alpha$

이 접근법은 샘플 크기가 서로 다르지 않으면 작동하는 것으로 나타났습니다. 간단하게하기 위해, 신뢰 구간 크기 해당하는 테스트 크기 $\alpha'$ 를 계산하기위한 옴니버스 공식을보고 할 것 입니다. 그것은 $\alpha$

α^{'} \approx e α^{1.91};

$\alpha' \approx e \alpha^{1.91};$

그건,

α^{'} \approx \exp (1 + 1.91 \log (α)) .

$\alpha' \approx \exp(1 + 1.91\log(\alpha)).$

이 공식은 다음과 같은 일반적인 상황에서 적절하게 작동합니다.

두 표본 크기는 서로 가깝고 $n_1 \approx n_2$ 이고 $\alpha$ 는 너무 크지 않습니다 ( $\alpha \gt .001$ 정도).
한 표본 크기는 다른 표본 크기의 약 3 배 내에 있으며 가장 작은 크기는 너무 작지 않으며 (대략 $10$ 보다 큼 ) 다시 $\alpha$ 는 너무 크지 않습니다.
한 샘플 크기는 다른 샘플 크기의 3 배 이내이고 $\alpha \gt .02$ 정도입니다.

첫 번째 상황에서 상대 오차 (정확한 값을 근사값으로 나눈 값)가 여기에 표시되며, 아래쪽 (파란색) 선은 경우 $n_1=n_2=2$ 이고 가운데 (빨간색) 선은 경우 $n_1=n_2=5$ 이고 상단 (금) 선은 경우 $n_1=n_2=\infty$ 입니다. 후자의 두 가지 사이를 보간 하면 표본 크기가 중간 (약 5-50) 일 때 근사치가 광범위한 실제 $\alpha$ 값에 대해 우수 하고 그렇지 않으면 합리적으로 좋습니다.

줄거리 2

이것은 많은 신뢰 구간을 시인하기에 충분합니다.

요약하면, 두 $2\alpha$ 크기 신뢰 구간이 겹치지 않는 것은 두 개의 표본이 표준 편차가 거의 같고 크기가 거의 동일한 경우 $2e \alpha^{1.91}$ 과 같은 수준에서 평균 차이의 중요한 증거입니다. .

공통 값 $2\alpha$ 에 대한 근사값을 표로 마무리하겠습니다 .

$2\alpha$ $2\alpha'$
0.1 0.02

0.05 0.005

0.01 0.0002

0.005 0.00006

$2\alpha=.05$ $p \lt .005$ $n$ $.0037$ $n=2$ $.0056$ $n=\infty$

이 결과는 @John의 답변을 정당화하고 개선하기를 바랍니다. 따라서 이전 답변이 충돌하는 것처럼 보이지만 둘 다 (자신의 방식으로) 정확합니다.

— 우버
소스

7

아니요, 최소한 간단한 것은 아닙니다.

그러나 두 평균 간의 차이 t- 검정과 두 평균 간의 차이에 대한 신뢰 구간 간에는 정확히 일치합니다.

두 평균의 차이에 대한 신뢰 구간에 0이 포함 된 경우 해당 차이에 대한 t- 검정은 동일한 신뢰 수준에서 null을 거부하지 못합니다. 마찬가지로 신뢰 구간에 0이 포함되어 있지 않으면 t- 검정은 null을 거부합니다.

이는 두 평균 각각에 대한 신뢰 구간 간 겹침과 동일하지 않습니다.

— 브렛
소스

@John의 대답은 현재 세부 사항에는 맞지 않지만 그래도 CI의 겹침을 연관시켜 p- 값을 테스트 할 수 있다고 올바르게 지적 합니다. 관계는 t- 테스트 자체보다 더 복잡하지 않습니다. 이것은 첫 번째 줄에서 언급 한 것처럼 첫 번째 결론과 모순되는 것처럼 보입니다. 이 차이를 어떻게 해결 하시겠습니까?

— whuber

나는 그들이 모순이라고 생각하지 않습니다. 경고를 추가 할 수 있습니다. 그러나 일반적으로 간격 (분산, 표본 크기)을 나타내는 것 이외의 매개 변수에 대한 추가 가정과 지식이 없으면 응답이있는 그대로입니다. 아니요, 최소한 간단한 것은 아닙니다.

— Brett

5

등분 산의 일반적인 가정 하에서 그렇습니다. 막대가 하나의 막대 * sqrt (2)의 길이보다 겹치면 t- 검정은 알파 = 0.05에서 막대가 크게 다르다는 것을 알게됩니다. 막대의 끝이 거의 닿지 않으면 0.01에서 차이가 나타납니다. 그룹의 신뢰 구간이 동일하지 않은 경우 일반적으로 평균의 신뢰 구간이 평균을 취하고 동일한 규칙을 적용합니다.

또는 평균 중 하나 주위의 신뢰 구간 너비가 w 인 경우 두 값 사이의 가장 작은 차이는 w * sqrt (2)입니다. 독립 그룹 t-test, sqrt (2 * MSE / n)의 분모와 sqrt (MSE / n) 인 CI에 대한 인수를 생각하면 간단합니다.

(95 % CI로 가정)

여기 에 독립된 수단에 대한 신뢰 구간으로부터 추론하는 간단한 논문이 있습니다 . 이 질문과 다른 많은 관련 질문에 대답 할 것입니다.

Cumming, G., & Finch, S. (2005, March). 눈으로 추론 : 신뢰 구간 및 데이터 사진을 읽는 방법. 미국 심리학자 , 60 (2), 170-180.

— 남자
소스

2

두 그룹의 크기가 같다고 가정해야합니다.

— whuber

대략, 그렇습니다 ...

— John