p- 값 이해


33

p- 값을 설명하는 자료가 많이 있다는 것을 알고 있습니다. 그러나이 개념은 더 이상의 설명 없이는 확실하게 파악하기가 쉽지 않습니다.

다음은 Wikipedia의 p- 값 정의입니다.

p- 값은 귀무 가설이 참이라고 가정 할 때 적어도 실제로 관측 된 것보다 극단적 인 검정 통계량을 얻을 확률입니다. ( http://en.wikipedia.org/wiki/P-value )

첫 번째 질문 은 "적어도 실제로 관찰 된 것만 큼 극단적 인 표현"에 관한 것입니다. p- 값 사용의 기본 논리에 대한 나의 이해는 다음과 같습니다. p- 값이 작 으면 귀무 가설을 가정하여 관측이 발생했을 가능성이 없으며 관측치를 설명하기 위해 다른 가설이 필요할 수 있습니다. p- 값이 너무 작지 않으면 귀무 가설을 가정 한 경우에만 관측이 발생했을 가능성이 높으며 대립 가설은 관측을 설명하는 데 필요하지 않습니다. 따라서 누군가 가설을 주장하려면 귀무 가설의 p- 값이 매우 작다는 것을 보여 주어야합니다. 이 관점을 염두에두고, 모호한 표현에 대한 나의 이해는 p- 값이min[P(X<x),P(x<X)], 통계량의 PDF가 단수형 인 경우, X 는 검정 통계량이고 x 는 관측치에서 얻은 값입니다. 이게 옳은 거니? 맞다면 통계의 바이 모달 PDF를 사용할 수 있습니까? PDF의 두 피크가 잘 분리되어 있고 관찰 된 값이 두 피크 사이의 낮은 확률 밀도 영역에있을 경우 p- 값의 확률은 어느 간격입니까?

번째 질문 은 Wolfram MathWorld의 p- 값에 대한 또 다른 정의에 관한 것입니다.

변수가 우연히 관찰 된 값보다 크거나 같은 값을 가정 할 확률입니다. ( http://mathworld.wolfram.com/P-Value.html )

"엄격히 우연히"라는 구절은 "널 가설 가정"으로 해석되어야한다는 것을 이해했습니다. 맞습니까?

세 번째 질문은 "귀무 가설"의 사용을 간주한다. 누군가 동전이 공정하다고 주장한다고 가정 해 봅시다. 그는 헤드의 상대 주파수가 0.5라는 가설을 표현합니다. 그런 다음 귀무 가설은 "상대 머리의 빈도가 0.5가 아닙니다"입니다. 이 경우 귀무 가설의 p- 값을 계산하기는 어렵지만 대립 가설을 계산하기는 쉽습니다. 물론이 문제는 두 가설의 역할을 서로 바꿔서 해결할 수 있습니다. 내 질문은 원래 대립 가설의 p- 값 (null 가설을 도입하지 않고)을 직접 기반으로 거부 또는 수락하는 것이 괜찮은지 여부입니다. 그것이 좋지 않으면 귀무 가설의 p- 값을 계산할 때 이러한 어려움에 대한 일반적인 해결 방법은 무엇입니까?




이 글의 토론을 바탕으로 더 명확한 새로운 질문 을 게시했습니다 .




14
당신은 종종 인식되지 않는 미묘함을 발견했습니다. "더 극단적 인" 은 널 샘플링의 꼬리에서 더 멀리 떨어져 있다는 명백한 (그러나 일반적으로는 정확하지는 않지만) 대체 가설상대적 가능성의 관점에서 측정되어야 합니다. 분포. 이것은 많은 가설 검정을 정당화하고 임계 영역 (및 p- 값)을 결정하는 데 사용되는 Neyman-Pearson Lemma 의 공식에서 분명 합니다. 이것을 통해 생각하면 첫 번째 질문에 답하는 데 도움이됩니다.
whuber

1
내가 기억 하듯이, Neyman-Pearson Lemma는 단순 대 단순 가설 검정에 적합합니다 (Ho : mu = mu_0, Ha : mu = mu_a). 복합 테스트 (Ho : mu = mu_0, Ha : mu> mu_a)의 경우 대체 테스트가 있습니다.
RobertF

답변:


17

첫 번째 답변

값이나 테스트중인 랜덤 변수의 값이 아니라 테스트 통계의 확률 측면에서 극단적 인 개념을 생각해야합니다. Christensen, R. (2005)의 다음 예를보고합니다. Fisher, Neyman, Pearson 및 Bayes 테스트 . 미국 통계 학자 , 59 (2), 121–126

(r|θ=0r|1234p(r|θ=0)|0.9800.0050.0050.010pvalue|1.00.010.010.02

여기에서 은 관측치이며, 두 번째 줄은 귀무 가설 하에서 주어진 관측치를 관찰 할 확률이며, 여기에서 테스트 통계로 사용되며 세 번째 줄은 값입니다. 우리는 Fisherian 시험의 틀에 현재 위치 : 하나 개의 가설 (이 이 경우, 우리는 데이터가 이상인지 여부 보려는 아래). 확률이 가장 작은 관측치는 각각 0.5 %로 2와 3입니다. 예를 들어, 2를 구하면 가능성이 있거나 덜 가능성이있는 것을 관찰 할 확률 ( 및 )은 1 %입니다. 관측치 는 기여하지 않습니다θ = 0 p H 0 θ = 0 r = 2 r = 3 r = 4 prθ=0pH0θ=0r=2r=3r=4p 값이 더 멀지 만 (주문 관계가 존재하는 경우) 관찰 될 가능성이 더 높기 때문에

이 정의는 순서 관계가 정의되지 않은 범주 형 및 다차원 변수를 모두 수용하므로 일반적으로 작동합니다. 가장 가능성있는 결과에서 약간의 편견을 관찰하는 ingle 정량적 변수의 경우 단일 꼬리 값 을 계산 하고 검정 통계량 분포의 한쪽에있는 관측치 만 고려하는 것이 좋습니다.p

두 번째 답변

나는 Mathworld의이 정의에 전적으로 동의하지 않습니다.

세 번째 답변

나는 당신의 질문을 완전히 이해하지 못했다고 말해야하지만, 당신을 도울 수있는 몇 가지 관찰을하려고 노력할 것입니다.

귀무 가설 만 가지고있는 Fisherian 테스트의 가장 간단한 상황에서는 이것이 현상 상태 여야합니다 . 어부의 테스트는 본질적으로 모순에 의해 작동하기 때문입니다. 따라서 동전의 경우 다르게 생각할 이유가 없다면 라고 가정합니다 . 그런 다음 계산 에서 데이터의 가치 하고있는 경우, 값이 미리 정의 된 임계 값 이하로, 당신은 (귀류법) 가설을 거부합니다. 당신은 결코 널 가설의 확률을 계산합니다.p H 0 pH0:θ=0.5pH0p

Neyman-Pearson 검정을 사용하면 두 가지 대립 가설을 지정하고 상대 가능성과 모수 벡터의 차원에 따라 서로 선호합니다. 예를 들어, 편향된 동전과 편향되지 않은 동전의 가설을 테스트 할 때 볼 수 있습니다. 바이어스되지 않음은 매개 변수를 (이 매개 변수 공간의 차원이 0 임)로 고정하는 것을 의미하는 반면, 바이어스는 임의의 값 (1과 같은 크기) 일 수 있습니다. 이것은 다른 사용자에 의해 설명 된 바와 같이, 모순에 의한 편향의 가설을 모순하려는 문제를 해결한다. 표본이 클 때 피셔와 NP는 비슷한 결과를 제공하지만 정확하게 동일하지는 않습니다. 아래는 바이어스 동전에 대한 R의 간단한 코드입니다.θ 0.5θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

2
내가 몰랐던 훌륭한 기사를 지적한 +1 (또한 Mathworld의 통계에 대한 관점의 유용성에 대해 회의론이 많이 필요했습니다).
conjugateprior

대단히 감사합니다! 따라서 p- 값은 \ int_ {x : f (x) <= k} f입니다. 여기서 f는 검정 통계량의 PDF이고 k는 통계량의 관측 값입니다. 다시 감사합니다.
JDL

세 번째 답변과 관련하여 공정성 가정이 거부되기 때문에 귀하의 답변에서 입증 된 것은 동전의 불공평성입니다. 반대로, 모순에 의해 동전의 공정성을 증명하기 위해서는 불공평 \ theta \ neq 0.5를 가정하고 내 데이터의 p- 값을 계산해야합니다. 어떻게하니? 내 요점은 어려움이 불공정 가정의 \ neq 표시에서 비롯된 것입니다. 공정성에 대한 공차 수준 (0.4 <\ theta <0.6)을 도입하고 p- 값을 \ theta로 계산하여 0 <\ theta <0.4 및 0.6 <\ theta <1 이상으로 통합해야합니까?
JDL

하나 더 질문. 이 링크 는 "단면"p- 값을 설명합니다. 단측 p- 값은 "무 가설 (Null hypothesis), 두 모집단이 실제로 동일하다는 질문에 답합니다. 무작위로 선택된 표본이이 실험에서 관찰 된 것과 거리가 멀거나 (또는 ​​그 이상)있을 가능성은 얼마입니까?" 평균 이 더 큰 지정된 그룹 ? " 단측 p- 값을 적절하게 사용합니까? 이 경우 귀무 가설 자체는 불평등으로 표현되어야한다고 생각합니다 (평등과 일방적 인 테스트 대신).
JDL

1
@Zag, 나는이 대답에 오히려 반대 : 당신이하지 않는 확률의 측면에서 극한의 개념을 생각 할 수 있습니다. 더 나은는 말을 이 예에서 널 아래에있는 확률이 검정 통계량으로 사용되는 -하지만 필수 아니에요. 예를 들어, whuber에서 언급 한 것처럼 우도 비율을 검정 통계량으로 사용하는 경우 일반적으로 null 미만의 확률과 동일한 순서로 가능한 샘플을 넣지 않습니다. 다른 대안은 특정 대안 또는 모든 대안에 대한 최대 전력 또는 모호하게 정의 된 세트에 대한 높은 전력에 대해 선택됩니다.
Scortchi-Monica Monica 복원

8

(1) 통계량은 표본에서 계산할 수있는 숫자입니다. 그것은 당신이 가질 수있는 모든 샘플을 주문하는 데 사용됩니다. 경우 당신이 실제로 얻은 샘플에서 계산하는 것입니다, & 해당 확률 변수이며, 다음 p- 값이 주어진다 귀무 가설 아래에서 . '보다 큼'과 '더 극단적'은 원칙적으로 중요하지 않습니다. Normal에 대한 양면 테스트의 경우 를 사용할 수 있지만 를 사용하는 것이 편리합니다. 적절한 테이블이 있기 때문입니다. (더블링에 유의하십시오.)T P r ( T t ) P r ( | Z || z | ) 2 [ P r ( Z z ) , P r ( Z z ) ]tTPr(Tt)H0Pr(|Z||z|)2min[Pr(Zz),Pr(Zz)]

검정 통계량에 따라 귀무 가설 하에서 표본을 확률 순서대로 넣을 필요는 없습니다. 다른 방법이 왜곡되어 보일 수있는 상황 (Zag의 예와 같이)이 있습니다 ( 측정 값, 과의 불일치 유형 등에 대한 자세한 정보없이 ). 그러나 종종 다른 기준이 사용됩니다. 따라서 위의 공식을 사용하여 검정 통계량 및 여전히 검정을위한 바이 모달 PDF를 가질 수 있습니다 .H 0 H 0rH0H0

(2) 예, 미만을 의미 합니다.H0

(3) "머리의 빈도가 0.5가 아닙니다"와 같은 귀무 가설은 거부 할 수 없으므로 사용되지 않습니다. "헤드의 빈도는 0.49999999"를 포함하거나 원하는만큼의 복합 널입니다. 코인의 공정성을 미리 생각하든 아니든간에 문제에 대한 유용한 귀무 가설을 선택합니다. 아마도 실험 후에 더 유용한 것은 공정한 동전이 아니거나 공정하기에 충분히 가까웠거나 더 많은 시험을 수행해야한다는 것을 보여주는 머리의 빈도에 대한 신뢰 구간을 계산하는 것입니다.

(1)에 대한 그림 :

10 번의 토스로 동전의 공정성을 테스트한다고 가정합니다. 가능한 결과 는 입니다. 다음은 그중 세 가지입니다.210

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

당신은 아마 처음 두 개가 조금 의심 스럽다는 것에 동의 할 것입니다. 그러나 null 아래의 확률은 같습니다.

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

어디서나 얻으려면 테스트하려는 null에 대한 대체 유형을 고려해야합니다. 널과 대안 모두에서 각 토스의 독립성을 가정 할 준비가되어있는 경우 (실제 상황에서 실험 실험이 독립적임을 보장하기 위해 매우 열심히 노력하는 것을 의미 함) 정보를 잃지 않고 테스트 통계로 총 헤드 수를 사용할 수 있습니다. . (이 방법으로 샘플 공간을 분할하는 것은 통계가 수행하는 또 다른 중요한 작업입니다.)

0과 10 사이의 카운트가 있습니다

t<-c(0:10)

널 아래의 분포는

p.null<-dbinom(t,10,0.5)

데이터에 가장 적합한 대안 버전에서 10 개 중 3 개가 헤드를 볼 경우 헤드의 확률은 .310

p.alt<-dbinom(t,10,t/10)

널 (null) 아래 확률 대 대안 하의 확률 비율을 취합니다 (우도 비율이라고 함).

lr<-p.alt/p.null

와 비교

plot(log(lr),p.null)

따라서이 null의 경우 두 통계 순서는 동일한 방식으로 샘플링됩니다. 0.85의 null로 반복하면 (즉, 헤드의 장기 주파수가 85 %인지 테스트하는 경우) 그렇지 않습니다.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

RTF GOF 테스트

이유를보기 위해

plot(t,p.alt)

대안에서 일부 값은 가능성이 적으며, 우도 비율 검정 통계량에서는이를 고려합니다. NB이 테스트 통계는 극단적이지 않습니다.t

HTHTHTHTHT

모든 샘플은 어떤 관점에서는 극단적 인 것으로 간주 될 수 있습니다. 탐지 할 null과의 불일치 유형에 따라 검정 통계량을 선택합니다.

...이 사고 과정을 계속하면 하나의 동전 던지기가 다음 동전에 영향을주는 대안에 대해 동일한 널을 테스트하기 위해 샘플 공간을 다르게 분할하는 통계를 정의 할 수 있습니다. 실행의 수에 전화 그래서,r

HHTHHHTTTH

보유 :r=6

HH T HHH TTT H

의심스러운 순서

HTHTHTHTHT

보유 . 그렇습니다r=10

THTHTHTHTH

다른 극단에있는 동안

HHHHHHHHHHTTTTTTTTTT

이 . 널 아래의 확률을 검정 통계량 (원하는 방식)으로 사용하면 표본의 p- 값이r=1

HHHHH

따라서 입니다. 주목할만한 것은이 테스트를 이전 테스트와 비교할 때 null 아래 확률로 주어진 순서를 엄격하게 고수하더라도 샘플 공간을 분할하기 위해 테스트 통계를 정의하는 방법은 대안을 고려하는 것입니다.41024=1256


Pr (T \ ge t; H_0) 정의는 검정 통계량의 다중 모드 (물론 이중 모드 포함) PDF에 적용 할 수 있다고 말합니다. 그런 다음 사용자와 Zag는 검정 통계량의 다중 모달 PDF에 대해 다른 p- 값을 제공합니다. IMHO, Zag의 정의는 p- 값의 역할이 관측이 귀무 가설 하에서 얼마나 가능성이 있는지 (또는 이상하게) 정량화하는 것이기 때문에 더 공명 할 수 있습니다. Pr (T \ ge t; H_0) 정의에 대한 이론적 근거는 무엇입니까?
JDL

@JDL, 그것은 p- 값의 정의 일뿐입니다 . 그러면 '좋은'검정 통계량을 찾는 방법과 '좋은'을 정의하는 방법이 문제가됩니다. 때로는 null 아래 확률 (또는 동일한 순서를 제공하는 데이터의 함수)이 검정 통계량으로 사용됩니다. 때로는 이론적 통계에 관한 책에서 많은 공간을 차지하는 다른 것들을 선택해야 할 이유가 있습니다. 대안에 대한 명시 적 또는 암시 적 고려를 포함한다고 말하는 것이 공정하다고 생각합니다. ...
Scortchi-Monica Monica 복원

@JDL, ... 그리고 만약 특정 관측치가 널과 대안 모두에서 낮은 확률을 가지고 있다면, 그것을 극단적 인 것으로 간주 하지 않는 것이 합리적 입니다.
Scortchi-Monica Monica 복원

답변을 보내 주셔서 감사합니다, @Scortchi. 새 질문을 게시했으며 게시 직후 귀하의 의견을 보았습니다. 어쨌든, 나는 여전히 그 정의에 대해 명확하지 않습니다. 친절한 답변에 다시 한번 감사드립니다.
JDL

그림을 추가했습니다
Scortchi-Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.