질문은 단순 해 보이지만 주위를 돌아 보면 간단하지 않다는 것을 알 수 있습니다.
실제로 p- 값은 통계 이론에 상대적으로 늦은 추가입니다. 컴퓨터없이 p- 값을 계산하는 것은 매우 지루합니다. 그렇기 때문에 최근까지 통계 테스트를 수행 할 수있는 유일한 방법은 이 블로그 게시물 에서 설명하는 것처럼 통계 테스트 테이블을 사용하는 것입니다 . 이러한 테이블은 고정 된 수준 (일반적으로 0.05, 0.01 및 0.001)에 대해 계산되었으므로 해당 수준으로 만 테스트를 수행 할 수있었습니다.α
컴퓨터는 이러한 테이블을 쓸모 없게 만들었지 만 테스트 논리는 여전히 동일합니다. 당신은해야합니다 :
- 귀무 가설을 공식화합니다.
- 대립 가설을 공식화하십시오.
- 수락 할 수있는 최대 유형 I 오류 (널 가설을 잘못 기각 할 가능성) 오류를 결정하십시오.
- 거부 지역을 설계하십시오. 귀무 가설이 수준 경우 검정 통계량이 기각 영역에 포함될 확률입니다 . @ MånsT가 설명 하듯이 이것은 허용 가능한 제 1 종 오류보다 작아서는 안되며, 대부분의 경우 점근 근사를 사용합니다.α
- 무작위 실험을 수행하고 검정 통계량을 계산하여 거부 영역에 속하는지 확인하십시오.
이론적으로, 이벤트 사이의 엄격한 등가가 "통계가 거부 지역에 빠진다" 및 "P 값 미만입니다 "당신이α p- 값을보고 할 수 있다고 생각하는 이유입니다, 대신은 . 실제로 3 단계를 건너 뛰고 테스트가 완료된 후 유형 I 오류를 평가할 수 있습니다 .
게시물로 돌아가려면 귀무 가설에 대한 진술이 올바르지 않습니다. 귀무 가설은 머리를 뒤집을 확률이 라는 것입니다. 귀무 가설은 무작위 실험 결과와 관련이 없습니다.1 / 2
임계 값 p- 값 0.05로 실험을 반복해서 반복하면 약 5 %의 기각 이 있어야합니다 . p- 값 컷오프를 0.06으로 설정하면 약 6 %의 거부로 끝나게됩니다. 보다 일반적으로, p- 값 정의에 의한 연속 테스트의 경우피
피r o b ( p < x ) = x ,( 0 < x < 1 ) ,
이것은 개별 테스트에만 해당됩니다.
여기에 이것을 명확히 할 수있는 R 코드가 있습니다. 이항 테스트는 상대적으로 느리기 때문에 10,000 코인을 뒤집는 무작위 실험은 10,000 회만 수행합니다. 이항 테스트를 수행하고 10,000 개의 p- 값을 수집합니다.
set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491
표본 크기가 무한하지 않고 테스트가 불연속 적이기 때문에 비율이 정확하지 않다는 것을 알 수 있지만, 둘 사이에는 여전히 약 1 %의 증가가 있습니다.