p- 값이 작을수록 더 설득력이 있습니까?


31

나는 값 , 유형 1 오류율, 유의 수준, 검정력 계산, 효과 크기 및 Fisher vs Neyman-Pearson 토론 에 대해 읽었습니다 . 이로 인해 나는 약간 압도되었다. 나는 텍스트의 벽에 대해 사과하지만 실제 질문으로 넘어 가기 전에 이러한 개념에 대한 나의 현재 이해에 대한 개요를 제공 할 필요가 있다고 느꼈다.p


내가 수집 한 것에서 값은 단순히 놀람의 척도이며, 귀무 가설이 참인 경우 최소한 극단적 인 결과를 얻을 확률입니다. Fisher는 원래 지속적인 측정을 위해 고안되었습니다.p

Neyman-Pearson 프레임 워크에서 유의 수준을 미리 선택하고이를 임의의 차단 점으로 사용하십시오. 유의 수준은 유형 1 오류율과 같습니다. 장기 빈도로 정의됩니다. 즉, 실험을 1000 번 반복하고 귀무 가설이 참인 경우, 이러한 실험 중 약 50 개 는 샘플링 변동성으로 인해 상당한 영향을 미칩니다. 유의 수준을 선택함으로써, 우리는 특정 확률로 이러한 오탐으로부터 자신을 보호하고 있습니다. 전통적으로 은이 프레임 워크에 나타나지 않습니다.P

우리가 발견하면 0.01 - 값을이 않습니다 하지 유형 1 오류 비율이 0.01 것을 의미, 유형 1 오류가 선험적으로 적혀있다. p- 값 이 종종 0.05 *, 0.01 **, 0.001 ***로보고 되기 때문에 이것이 Fisher 대 NP 토론의 주요 주장 중 하나라고 생각합니다 . 이로 인해 사람들은 효과가 특정 유의 가치 대신 특정 p- 값 에서 중요하다고 말하게 될 수 있습니다.ppp

또한 값이 샘플 크기의 함수 라는 것을 알고 있습니다. 따라서 절대 측정으로 사용할 수 없습니다. 작은 p- 값은 큰 샘플 실험에서 작고 관련이없는 효과를 가리킬 수 있습니다. 이를 방지하기 위해 실험의 표본 크기를 결정할 때 검정력 / 효과 크기 계산을 수행하는 것이 중요합니다. P 값은 효과가 크지 않은지 여부를 알려줍니다. 설리번 2012 참조 .ppP

내 질문 : p- 값이 놀람의 척도 (작은 = 더 설득력있는) 라는 사실을 어떻게 조정할 수 있습니까? 동시에 절대 측정으로 볼 수는 없습니까?p

내가 혼동하는 것은 다음과 같습니다. 우리 는 큰 값보다 작은 p- 값 에 대해 더 확신 할 수 있습니까? 어부의 의미에서 우리는 더 놀랐습니다. NP 프레임 워크에서 더 작은 유의 수준을 선택하면 우리가 오탐으로부터 더 강력하게 보호하고 있음을 의미합니다.p

그러나 반면에 은 표본 크기에 따라 다릅니다. 그것들은 절대적인 척도가 아닙니다. 따라서 0.001593이 0.0439보다 더 중요 하다고 간단히 말할 수는 없습니다 . 그러나 이것이 Fisher의 프레임 워크에 내포 된 것 : 우리는 그러한 극단적 인 가치에 더 놀랄 것입니다. 매우 중요한 용어 가 잘못되었다는 용어에 대한 논의도 있습니다 . 결과를 "매우 중요"하다고 말하는 것이 잘못입니까?p

나는 그것을 들었다 그들이 0.0001보다 작은 경우 다른 필드 값에 약 0.01가 이미 매우 중요한 것으로 간주되는 반면, 과학의 일부 분야에서 -values 만 중요하게 고려된다.p

관련 질문 :


또한 "유의 한"p 값이 이론에 대해 아무 것도 알려주지 않는다는 것을 잊지 마십시오. 이것은 가장 열렬한 수비수들에게도 인정됩니다 : 통계적 중요성의 정확성 : 이론적, 타당성 및 유용성. 시우 엘 차우 행동 및 뇌 과학 (1998) 21, 169–239 데이터는 증거로 바뀔 때 해석됩니다. 해석의 근거가되는 가정을 열거하고 가능하면 점검해야합니다. 무엇을 측정하고 있습니까?
Livid

2
+1이지만 질문에 집중하고 부수적 인 질문을 제거하도록 권장합니다. 일부 사람들이 신뢰 구간이 p- 값보다 낫다고 주장하는 이유에 관심이있는 경우 별도의 질문을하십시오 (그러나 이전에 요청하지 않았는지 확인).
amoeba는 Reinstate Monica

3
그 외에도, 귀하의 질문은 왜 p- 값이 낮을수록 null에 대한 더 많은 증거가 아닌가? 그 실 보셨어요? 게시물 끝에있는 목록에 추가 할 수 있습니다. 또한 비슷한 질문보기 는 서로 P-값을 비교할 수 있습니다 무엇을 의미? 허용 된 답변에 IMHO가 잘못되었거나 오해의 소지가 있기 때문에 해당 스레드를 권장하는 것을 꺼려합니다 (주석의 토론 참조).
amoeba는 Reinstate Monica


2
링크 @Glen_b에 감사드립니다; 나는 Gelman & Stern 논문을 잘 알고 있으며 종종 나 자신을 참조하지만이 2013 논문이나 토론을 보지 못했습니다. 그러나 저는 Gelman & Stern의 질문과 관련하여 해석하는 것에 대해 OP를주의하고 싶습니다. G & S는 10 ± 10 의 효과를 추정하는 두 가지 연구를 통해 좋은 예를 제공합니다 . 한 경우에 P < 0.01 다른에서, P > 0.05 있지만 차이 추정치간에 중요하지 않다. 이 점을 명심하는 것이 중요하지만 지금은 OP 이후에 첫 번째 연구가 더 설득력이 있는지 묻습니다. 그렇습니다. 25±1010±10p<0.01p>0.05
amoeba는 Reinstate Monica

답변:


18

더 작은 p "더 설득력이 있습니까?" 예, 물론입니다.

Fisher 프레임 워크에서 값은 귀무 가설에 대한 증거 량을 정량화 한 것입니다. 증거는 다소 설득력이 있습니다. p- 값 이 작을수록 더 설득력이 있습니다. 고정 크기 샘플 주어진 실험에서 유의 NP의 @Scortchi 좋게 그의 답변 (+1)에 지적한 바와 같이 - 값이 단조롭게 효과의 크기와 관련된다. 따라서 더 작은 p- 값은 더 큰 효과 크기에 해당합니다. 물론 그들은 더 설득력이 있습니다!ppnpp

Neyman-Pearson 프레임 워크에서 목표는 이진 결정을 얻는 것입니다. 증거가 "중요"하거나 그렇지 않습니다. 임계 값 를 선택하면 α 오 탐지 수를 초과하지 않습니다 . 동일한 데이터를 볼 때 사람들마다 다른 α를 생각할 수 있습니다 . 아마도 내가 회의적인 분야의 논문을 읽었을 때 저자가 중요하다고 부르더라도 p = 0.03의 "중요한"결과로 개인적으로 고려하지는 않을 것입니다. 내 개인 α0.001 또는 다른 것으로 설정되었을 수 있습니다 . 분명히보고 된 p를 낮추십시오αααp=0.03α0.001p 값 될 수 있습니다. 따라서 다시 p를 낮추십시오p 이 더 설득력이 있습니다.

현재 표준 관행은 Fisher와 Neyman-Pearson 접근 방식을 결합하는 것입니다. 이면 결과를 "중요"라고하고 p- 값을 [정확하게 또는 대략적으로]보고하고 설득력의 척도로 사용합니다 (표시하여) "매우 중요한"등의 표현을 사용하는 별과 함께); 경우 p는 > α는 , 그 결과는 "중요하지"라고하고 그게 다에요.p<αpp>α

이를 일반적으로 "하이브리드 접근 방식"이라고하며 실제로는 하이브리드입니다. 어떤 사람들은이 잡종이 일관성이 없다고 주장합니다. 나는 동의하지 않는 경향이있다. 두 가지 유효한 일을 동시에 수행하는 것이 왜 무효입니까?

더 읽을 거리 :


1
(+1) 그러나 Michael Lew의 논문 4.4 절을 참조하십시오. 일부는 p- 값보다 가능성에 근거하여 증거의 양을 동일시하기 때문에 다른 샘플링 공간을 가진 실험의 p- 값을 비교할 때 차이를 만듭니다. 그래서 그들은 증거 / 가능성을 "인덱싱"또는 "교정"하는 것에 대해 이야기합니다.
Scortchi-Monica Monica 복원

더 정확하게 말해서,이 견해에서, 매개 변수가 취할 수있는 다른 값에 대한 상대적인 "증거"(또는 "지원")는 관측 된 데이터에 대해 평가 된 가능성 함수의 비율입니다. Lew의 예에서, 6 개의 토스 중 1 개의 헤드는 샘플링 방식이 이항인지 음 이항인지에 상관없이 귀무 가설에 대한 동일한 증거입니다. 그러나 p- 값은 다릅니다. 하나의 샘플링 체계에서 널에 대한 많은 증거를 축적 할 가능성이 적다고 말할 수 있습니다. (물론 "중요한"과 같이 "증거"라는 단어에 대한 권리는 ...
Scortchi-복원 모니카

... haven't yet been firmly established.)
Scortchi - Reinstate Monica

Hmmm, thanks a lot for drawing my attention to this section; I read it before but apparently missed its importance. I must say that at the moment I am confused by it. Lew writes that the p-values should not be "adjusted" by taking stopping rules into account; but I don't see any adjustments in his formulas 5-6. What would "unadjusted" p-values be?
amoeba says Reinstate Monica

1
@Scortchi : 흠. 이러한 p- 값 중 하나가 "조정 된"이유와 다른 이유는 무엇인지 이해가되지 않습니다. 왜 그 반대가 아닌가? 나는 Lew의 주장에 전혀 확신이 없으며, 그것을 완전히 이해조차하지 못합니다. 그것에 대해 생각하면서, 나는 가능성 원칙과 p- 값에 대한 2012 년 Lew의 질문을 발견 하고 거기에 답을 게시했습니다. 요점은 다른 p- 값을 얻기 위해 다른 중지 규칙이 필요하지 않다는 것입니다. 단순히 다른 테스트 통계를 고려할 수 있습니다. 아마도 계속 논의 할 수있을 것입니다. 귀하의 의견에 감사드립니다.
amoeba는

9

더 작은 p- 값이 "더 나은"것이거나 "더 자신감이있는"것의 의미를 모르겠습니다. 그러나 귀무 가설을 믿었다면 데이터에 얼마나 놀랐는지에 대한 척도로서 p- 값을 고려할 때 충분히 합리적입니다. p- 값은 선택한 검정 통계량의 단조 함수입니다모집단 또는 실험 처리의 무작위 배정에서 관련 샘플링 절차에 따라 귀무 가설과 관심 방향으로 불일치를 측정하여 해당 특성과 관련하여 보정합니다. "의의"는 p- 값이 특정 값보다 높거나 낮은 것을 의미하는 기술 용어가되었습니다. 따라서 유의 수준을 지정하고 가설을 수용 또는 거부하는 데 관심이없는 사람들조차도 "매우 중요한"과 같은 문구를 피하는 경향이 있습니다.

Regarding the dependence of p-values on sample size & effect size, perhaps some confusion arises because e.g. it might seem that 474 heads out of 1000 tosses should be less surprising than 2 out of 10 to someone who thinks the coin is fair—after all the sample proportion only deviates a little from 50% in the former case—yet the p-values are about the same. But true or false don't admit of degrees; the p-value's doing what's asked of it: often confidence intervals for a parameter are really what's wanted to assess how precisely an effect's been measured, & the practical or theoretical importance of its estimated magnitude.


1
+1. I think what the question was getting at, is: are smaller p-values more convincing -- that's how I understand "better" in the title (in general, the question would greatly benefit if the OP tried to focus it)? If one gets p=0.04 or p=0.000004, one would perhaps call the results "significant" in both cases, but are they more convincing in the latter case? The practice of putting "stars" near p-values assumes that they are; are they? (This is essentially asking about the often-criticized "hybrid" between Fisher and Neyman-Pearson; personally, I don't have a problem with it.)
amoeba says Reinstate Monica

1

Thank you for the comments and suggested readings. I've had some more time to ponder on this problem and I believe I've managed to isolate my main sources of confusion.

  • Initially I thought there was a dichotomy between viewing the p-value as a measure of surprise versus stating that it's not an absolute measure. Now I realise these statements don't necessarily contradict each other. The former allows us to be more or less confident in the extremeness (unlikeness even?) of an observed effect, compared to other hypothetical results of the same experiment. Whereas the latter only tells us that what might be considered a convincing p-value in one experiment, might not be impressive at all in another one, e.g. if the sample sizes differ.

  • The fact that some fields of science utilise a different baseline of strong p-values, could either be a reflection of the difference in common sample sizes (astronomy, clinical, psychological experiments) and/or an attempt to convey effect size in a p-value. But the latter is an incorrect conflation of the two.

  • Significance is a yes/no question based on the alpha that was chosen prior to the experiment. A p-value can therefore not be more significant than another one, since they are either smaller or larger than the chosen significance level. On the other hand, a smaller p-value will be more convincing than a larger one (for a similar sample size/identical experiment, as mentioned in my first point).

  • Confidence intervals inherently convey the effect size, making them a nice choice to guard against the issues mentioned above.


0

The p-value cannot be a measure of surprise because it is only a measure of probability when the null is true. If the null is true then each possible value of p is equally likely. One cannot be surprised at any p-value prior to deciding to reject the null. Once one decides there is an effect then the p-value's meaning vanishes. One merely reports it as a link in a relatively weak inductive chain to justify the rejection, or not, of the null. But if it was rejected it actually no longer has any meaning.


+1 for the fact "when the null is true then every p-value is equally likely'' however, I think this holds only for continuous random variables ?

Note that I said, every "possible" value of p is equally likely. So this is true for discreet or continuous variables. With discreet variables the number of possible values is lower.
John

are you sure that the distribution of the p-values (under H0) is always uniform for discrete variables because this link seems to say someting different: stats.stackexchange.com/questions/153249/…

I believe the leading answer demonstrates that this is a non-issue. The reason that the distribution looks non-uniform is because the possible p-values are unequally spaced. Glenn even calls it quasi-uniform. I suppose it's possible that with some very sparse tests of binomial data with small Ns then perhaps the probability of specific p-values is unequal but if you consider the probability of p-values in a given range it will be closer to uniform.
John

1
@amoeba: let's say that the t-test you mention tests H0:μ=0.5 and you get p=0.0000000004. It could be that, with the same sample you test H0:μ=0.45 and you get p=0.0000000001, would you then say that there is more evidence for μ=0.45 ?
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.