일반적으로 더 많은 데이터로 테스트 할 모수에 대한 추정치를 계속 향상시킬 수 있습니다. 테스트에서 반중간 정도의 중요도가 달성되면 데이터 수집을 중지하는 것은 나쁜 추론을 만드는 좋은 방법입니다. Neyman-Pearson 프레임 워크가 의도하지 않은 많은 결과 중 하나 인 분석가가 작업이 완료되었다는 표시로 인해 중요한 결과를 오해 할 수 있음에 따라 사람들은 p 값을 예약하지 않고 널을 거부하거나 거부하지 않는 원인으로 해석 합니다. 임계 임계 값 중 어느 쪽이 떨어지는 지
잦은 패러다임에 대한 베이지안 대안을 고려하지 않으면 서 (다른 사람이 바라는 바), 신뢰 구간은 기본 귀무 가설을 기각 할 수있는 시점을 넘어 훨씬 더 유익한 정보를 계속 제공합니다. 더 많은 데이터를 수집하면 기본 유의성 검정이 훨씬 더 큰 유의성을 달성한다고 가정하고 (이의 유의성에 대한 초기 발견이 거짓 긍정임을 밝히지 않음), 어느 쪽이든 null을 거부하기 때문에 이것이 쓸모없는 것으로 보일 수 있습니다. 그러나이 시나리오에서는 해당 모수에 대한 신뢰 구간이 계속 줄어들어 관심있는 모집단을 정확하게 설명 할 수있는 신뢰도를 향상시킵니다.
다음 은 시뮬레이션 변수에 대해 μ = 0 이라는 귀무 가설을 테스트하는 r 의 매우 간단한 예입니다 .μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
여기서 방금을 사용 t.test(rnorm(99))
했고 오 탐지가 발생했습니다 (허용 가능한 오 탐지율을 선택 하여 기본적으로 로 가정 한 경우). 신뢰 구간을 무시하면 표본이 모집단에서 추출되어 평균이 0과 크게 다른 것으로 주장 할 수 있습니다. 기술적으로 신뢰 구간은 이것에 대해 논쟁의 여지가 없지만 평균이 0에 매우 가깝 거나이 샘플을 기반으로 생각하는 것보다 훨씬 더 클 수 있음을 시사합니다. 물론 모집단 의 평균이 0으로 설정되어 있지만 실제 데이터로는 거의 알지 못하기 때문에 null이 실제로 문자 그대로 사실이라는 것을 알고 있습니다.α = .05rnorm
이것을 다시 실행하면 set.seed(8);t.test(rnorm(99,1))
샘플 평균 .91, p = 5.3E-13 및 대한 95 % 신뢰 구간이 생성됩니다 . 이번에는 특히 시뮬레이션 데이터의 평균을 1로 설정하여 null을 구성했기 때문에 null이 false임을 확신 할 수 있습니다.μ = [ .69 , 1.12 ]
여전히 0과 얼마나 다른지 아는 것이 중요하다고 말하십시오. 아마 0.8의 평균은 문제의 차이를 나타 내기 위해 0에 너무 가까울 것입니다. 나는 가능성을 배제하기에 충분한 데이터가없는 볼 수 나의 신뢰 구간에서 모두와의 t 와 -test 제공, P = 0.33입니다. 내 샘플 평균은이 0.8 임계 값에 따라 0과 의미가 다르게 보일 정도로 충분히 높습니다. 더 많은 데이터를 수집하면 차이가 최소한 0보다 크지 않다는 것에 대한 확신을 높이는 데 도움이 될 수 있습니다.μ = 0.8mu=.8
시뮬레이션으로 "데이터를 수집"하고 있기 때문에 약간 비현실적 일 수 있으며 샘플 크기를 몇 배나 늘릴 수 있습니다. Running 은이 시나리오에서 μ = 0set.seed(8);t.test(rnorm(999,1),mu=.8)
의 귀무 가설을 기각 한 후 더 많은 데이터가 계속 유용하다는 것을 알았습니다. 이제 더 큰 표본 으로 μ = .8 의 귀무를 기각 할 수 있기 때문 입니다. μ = [ .90 , 1.02 ] 의 신뢰 구간은 처음에 그렇게하기로 결정했다면 μ = .89 까지 귀무 가설을 기각 할 수 있음을 시사 합니다.μ = 0μ = 0.8μ = [ .90 , 1.02 ]μ = .89
H0: μ = .9set.seed(9);t.test(rnorm(999,1),mu=.9)
점점 더 엄격한 귀무 가설을 테스트하거나 더 나은 방법은 단순히 신뢰 구간을 줄이는 데 초점을 두는 것입니다. 물론 귀무 가설을 기각하는 대부분의 연구는 대립 가설을 바탕으로하는 다른 연구의 토대가됩니다. 예를 들어, 상관 관계가 0보다 크다는 대체 가설을 테스트하는 경우 다음 후속 연구에서 중재자 또는 중재자를 테스트 할 수 있습니다. 그리고 내가있는 동안 확실히 확인하고 싶습니다. 원래 결과를 복제 할 수 있습니다.
고려해야 할 또 다른 접근법은 동등성 테스트입니다. 매개 변수가 단일 값과 다르지 않고 특정 범위의 가능한 값 범위 내에 있다고 결론을 내려면 기존의 대체 가설에 따라 매개 변수가 놓일 값 범위를 지정하고 테스트 할 수 있습니다 모수가 해당 범위 밖에있을 가능성을 함께 나타내는 다른 귀무 가설 세트에 대해 이 마지막 가능성은 당신이 썼을 때 생각했던 것과 가장 비슷할 것입니다 :
우리는 대안이 사실이라는 "몇 가지 증거"를 가지고 있지만 그 결론을 이끌어 낼 수는 없습니다. 결론을 결정적으로 내리고 싶다면 ...
set.seed(8)
rnorm(99)
rnorm(99,1)-1
μ = 0.8− .2 ≤ μ ≤ .2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
μ = [ - 0.27 , 0.09 ]rnorm(999)
μ = [ - 0.09 , 0.01 ]
나는 여전히 신뢰 구간이 동등성 검정 결과보다 더 흥미 롭다고 생각합니다. 그것은 데이터가 모집단 평균이 대립 가설보다 더 구체적이라고 제안하는 것을 나타내며, 대립 가설에서 지정한 것보다 훨씬 작은 간격 내에 있다고 확신 할 수 있습니다. 설명하기 위해 한 번 더 시뮬레이션 내 비현실적인 힘을 남용거야, 그리고 "복제"사용 set.seed(7);tost(rnorm(999),epsilon=.09345092)
: 과연, P = 0.002.