작은


62

몇몇 테스트에서 R, 온 하한치가 의 계산 2.221016 . 그 이유가 무엇인지, 또는 임의의 이유인지 확실하지 않습니다. 다른 많은 통계 패키지는로 이동 0.0001하므로 훨씬 높은 수준의 정밀도입니다. 그러나 <2.221016 또는 보고하는 논문이 너무 많지 않았습니다 .=2.221016

이 계산 된 값을보고하는 것이 일반적 / 모범 사례 p < 0.000000000000001입니까, 아니면 다른 것 (예 :)을보고하는 것이 더 일반적인 가요?


작은 p- 값을 얻고 실제 p- 값을 계산하려는 경우 excel = TDIST (t, df, 2)에서이 함수를 사용할 수 있습니다. 't'와 df의 값을 추가하면 실제 값을 얻습니다. p- 값 ta

7
@Tahzeeb Excel이 R ..보다 정확한 추정치를 반환 하는 이유가 있습니까? 내가 아는 한 훨씬 정확합니다.
Tim

...But I haven't seen too many papers reporting p<2.22⋅10−16....일부 GWAS 논문을 참조하십시오 . 예를 들어, 전립선 암 KLK 영역, p = 9x10 ^ -186과 같이 pvalue에 대한 결과가 수백 개나되는 논문이 많이 있습니다.
zx8754

1
여기 whuber의 답변을 참조하십시오 : stats.stackexchange.com/questions/11812 .
amoeba는

답변:


87

그럴만한 이유가 있습니다.

값은 다음을 통해 찾을 수 있습니다 noquote(unlist(format(.Machine)))

           double.eps        double.neg.eps           double.xmin 
         2.220446e-16          1.110223e-16         2.225074e-308 
          double.xmax           double.base         double.digits 
        1.797693e+308                     2                    53 
      double.rounding          double.guard     double.ulp.digits 
                    5                     0                   -52 
double.neg.ulp.digits       double.exponent        double.min.exp 
                  -53                    11                 -1022 
       double.max.exp           integer.max           sizeof.long 
                 1024            2147483647                     4 
      sizeof.longlong     sizeof.longdouble        sizeof.pointer 
                    8                    12                     4 

도움말을 보면 ( ?".Machine") :

double.eps  

the smallest positive floating-point number x such that 1 + x != 1. It equals 
double.base ^ ulp.digits if either double.base is 2 or double.rounding is 0; 
otherwise, it is (double.base ^ double.ulp.digits) / 2. Normally 2.220446e-16.

값이 작을수록 수치 적으로 의미가 없다고 확신 할 수있는 값은 본질적으로 그보다 작습니다. 더 작은 값은 계산하려는 값의 정확한 계산이 아닐 수 있습니다. (특정 절차에 의해 수행 된 계산에 따라 약간의 수치 분석을 연구했지만 수치 적 의미가 그 이상으로 공정한 방식으로 올 가능성이 높습니다.)

그러나 통계적 의미는 훨씬 일찍 사라졌습니다. p- 값은 가정에 따라 달라지며 극단적 인 꼬리로 갈수록 실제 p- 값이 계산할 때 명목상의 값이 아닌 실수 값에 더 크게 영향을받을 수 있습니다. '조금 틀렸어. 가정이 모두 정확하게 만족되지는 않기 때문에, 중간 p- 값은 비교적 정확할 수 있지만 (상대적인 정확도 측면에서, 아마도 약간의 분수에 의해서만 가능함) 매우 작은 p- 값은 많은 차수에 의해 나올 수 있습니다. 크기.

즉, 일반적인 관행 (패키지에서 일반적으로 말하는 "<0.0001"또는 Jaap이 그의 대답에서 언급 한 APA 규칙)은 현명한 관행과는 거리가 멀지 만 사물이 대략적으로 나타나는 지점 일 것입니다. ' 매우 작다 ' 라는 말을 넘어서는 의미 는 물론 상황에 따라 크게 달라질 수 있습니다.

이것이 내가 일반적인 규칙을 제안 할 수없는 한 가지 이유입니다. 모든 상황에서 모든 사람에게 원격으로 적합한 단일 규칙이있을 수는 없습니다. 상황을 약간 변경하고 넓은 회색 선은 다소 의미있는 것에서 상대적으로 변화를 나타냅니다 무의미한 변화는 때때로 먼 길로 바뀔 것입니다.

당신이 (가 회귀의 예를 들면, 정확한 상황에 대한 충분한 정보를 지정한다면 많이 비선형, 이 독립 변수의 변화의 양 오류 용어의 종류와 의존의 양, 종류와 이분의 양, 형태의 오차 분포), 나는 당신이 공칭 p- 값과 비교하기 위해 '진정한'p- 값을 시뮬레이션 할 수 있으므로 공칭 값이 의미를 전달하기에 너무 다르다는 것을 알 수 있습니다.

그러나 이것이 진정한 p- 값을 시뮬레이트하기 위해 충분한 정보를 지정 했음에도 불구하고 두 번째 이유로 이어질 수 있습니다.

당신이보고하는 것은 사람들의 선호, 당신과 당신의 청중에 달려 있습니다. 제가 공칭에서 선을 그어야하고 싶다고 결정을 위해 당신이 상황에 대해 충분히 얘기 상상 (10) - (6) .p106

우리 자신의 선호도 기능을 제외하고는 잘 생각할 수도 있습니다. 가정의 실패의)에 넣어 수 당신이에 차단하기 위해 자신의 담요 규칙이 넣을 수에 제출할 저널의 편집자 (10) - (4) , 다음 저널에 넣을 수있는 반면 (10) - 3 과 다음은 일반적인 규칙이 없을 수도 있고 내가 얻은 특정 편집기가 내가 준 것보다 훨씬 낮은 값을 허용 할 수도 있지만 심판 중 하나가 특정 컷을 가질 수 있습니다!105104103

선호 기능과 규칙에 대한 지식이없고 자신의 유틸리티에 대한 지식이없는 경우 어떤 조치를 취할 것인지에 대한 일반적인 선택을 어떻게 책임감있게 제안합니까?

나는 적어도 내가하는 일을 말할 수 있습니다 (그리고 이것이 당신에게 좋은 선택이라고 제안하지는 않습니다).

p- 값을 시뮬레이션하는 것 이외의 환경은 거의 없습니다. (I 수도 있고 패키지에 의해보고 된 값을 언급하지 않을 수 있습니다,하지만 난 그것보다 아무것도 다른하지 것이다 그것은 매우 작았습니다. 나는 보통 정확한 숫자의 무의미를 강조합니다). 가끔의 지역 어딘가에 값을 (10) - (5) (10) - 4 그 p가보다 훨씬 적었다 말한다. 때로는 위에서 제안한대로 실제로 수행합니다 .p- 값이 가정에 대한 다양한 위반에 특히 민감한 지 확인하기 위해 시뮬레이션을 수행하십시오. 특히 내가 우려하는 특정 종류의 위반이있는 경우.106105104

그것은 선택을 알리는 데 확실히 도움이되지만 시뮬레이션 결과를 사용하여 컷오프 값을 선택하고 다른 사람들이 자신의 것을 선택할 수있는 기회를 제공하는 것에 대해 논의 할 것입니다.

시뮬레이션의 대안은 다양한 잠재적 가정 실패에 대해보다 강력한 * 절차를보고 p- 값에 얼마나 큰 차이가 있는지 확인하는 것입니다. 이들의 p- 값도 특별히 의미가 없지만, 최소한의 영향이 어느 정도인지는 알 수 있습니다. 일부가 명목상의 것과 매우 다른 경우, 또한 영향을 조사하기 위해 가정을 위반 하는 아이디어 더 많이 제공합니다 . 이러한 대안을보고하지 않더라도 작은 p- 값이 얼마나 의미가 있는지 더 잘 알 수 있습니다.

* 여기서는 일부 가정에 대한 중대한 위반에 대해 강력한 절차가 필요하지 않습니다. 이 가정에서는 관련 가정의 비교적 경미한 편차에 의해 영향을 덜받는 것이 좋습니다.

아주 경미한 위반으로도 그러한 시뮬레이션을 수행 할 때 작은 p- 값이 얼마나 잘못 될 수 있는지는 놀랄 수 있습니다. 그것은 내가 사용할 수있는 특정 컷오프를 이동시킨 것보다 p- 값을 개인적으로 해석하는 방식을 바꾸는 데 더 많은 일을했습니다.

실제 가설 검정 결과를 저널에 제출할 때 규칙이 있는지 알아 봅니다. 그렇지 않은 경우, 나는 제 자신을 기쁘게하는 경향이 있으며, 심판이 불평하기를 기다립니다.


11
나는 통계적 의미 에 대한 의견 이 훨씬 일찍 사라지는 것을 특히 좋아합니다 .
usεr11852는 Reinstate Monic이

좋은 답변입니다! 나는 이것에 대한 모든 세부 사항에 감사하며, R 이이 숫자를 제공하는 이유를 분명히합니다. 그러나 실제로보고해야 할 문제에 대한 답변은 아닙니다.
paul

1
오히려 특정 제안을 할 책임이없는 이유를 설명했다는 점에서 문제를 해결했다고 생각했습니다. 일부 패키지에서 일반적으로 사용되는 "<0.0001"과 같은 것을보고하는 것이 왜 합리적인지 논의합니다. 내가 특정 숫자를 제안하지 않는 데는 두 가지 이유가 있습니다. 나는 그 이유와 편집에서 두 번째 이유를 확장 할 것입니다.
Glen_b

폴, 나는 좀 더 실질적인 토론을 추가했습니다.
Glen_b

2
그렇습니다. 무언가를해야합니다. 나의보다 광범위한 논평의 요점은 당신이 무엇을 선택해야하는지 말할 수 없다는 것을 전달하는 것이 었습니다. 이 작업을 수행했으면 좋겠지 만 가능한 경우 문제를 더 명확하게 설명해 드리겠습니다.
Glen_b

27

일반적인 관행은 연구 분야에 따라 다릅니다. 가장 많이 사용되는 인용 스타일 중 하나 인 미국 심리 학회 (APA)의 매뉴얼은 다음과 같습니다 (p. 139, 6 판).

보다 작은 값을 사용하지 마십시오 p <0.001


8
이것이 내가 일반적으로 인용하는 것 (+1)이지만, PNAS 에서 Valen Johnson의 최근 권고를 고려할 때,이 권고를 소수점 이하 한 자리 씩 수정해야하는지 여부는 확실하지 않습니다 . ...]. 유의미한 테스트 결과를 0.001 미만의 P 값과 연관시킵니다. "
Henrik

3
좋은 대답입니다. 필자의 분야에는 스타일 가이드와 실제 표준이 없으며 적어도 p- 값에는 없습니다. 학제 간 연구를 수행하지만 컴퓨터 과학과 HCI가이 분야에 해당 될 것입니다. 나는 그 방법이 일반적으로인지 정신이나 APA가 다루는 다른 영역에서 빌려 오기 때문에 APA 스타일은 저자가 돌아갈 곳이라고 생각합니다.
paul

10
5σ<106

1
5σ0.0001

@amoeba 그래, 네가 옳은 것 같아.
Glen_b

14

이러한 극도의 p- 값은 유전체학 및 공정 모니터링과 같이 대량의 데이터가있는 분야에서 더 자주 발생합니다. 이 경우 때때로 -log 10 (p-value)으로 보고됩니다 . 예를 들어 p 값이 1e-26으로 내려가는 Nature의이 그림을 참조하십시오 .

-log 10 (p- 값)은 JMP에서 작업하는 통계 전문가"LogWorth"라고 합니다.


21

8
@BenBolker 실제로 "데이터를 조작 한 NSA"보다 가능성이 낮지 만 "데이터에서 몇 가지 중요한 비트를 뒤집은 우주 광선"과 같은 이벤트도 그 확률보다 훨씬 높습니다.
Glen_b

6
<10100ρ0.9500

8
=2.2×10226

9
@amoeba 이상 슬레이트 스타 코덱스 코멘트 섹션에서, 다니엘 웰스 노트 것을 science.sciencemag.org/content/363/6425/eaau1043는 ( "없습니다 오타, 두 3.6e-2382의 P-값을보고 ", 다니엘은 말한다 ), 이것은 당신의 여백을 훨씬 능가합니다!
Mark Amery

-3

R에서 "<2e-16"은 문자 그대로 <2e-16을 의미하는 것이 아니라 R이 기록하거나 표시 할 수 없을 정도로 값이 작다는 의미입니다.

회귀 테스트에서 종종 p가 4.940656e-324만큼 작습니다. "<2e-16"을 출력 할 때 이는 4.940656e-324보다 훨씬 작은 수입니다.


" 4.940656e-324 " 보다 작은 숫자는 무엇입니까?
스벤 호헨 슈타인

8
귀하의 문 " R의는"<2E-16 "은 문자 그대로 <2E-16이 의미하는 것은 아니다 올바르지 않습니다." R에가 표시 <2e-16되면 값 2e-16 문자 보다 작습니다 .
스벤 호헨 슈타인

내가 한 말을 잘못 이해 했어 R이 "<2e-16"이라고 말하면 p- 값이 2e-16보다 작지만 2e-16보다 작은 p- 값이 "<2e-16"으로 표시되는 것은 아닙니다. 내가 보았 듯이, R은 [4.940656e-324, 2e-16] 사이의 숫자에 대한 요약 p- 값을 표시하는 데 아무런 문제가 없지만 왼쪽 경계는 2 ^ -1074입니다. 따라서 p- 값이 2 ^ -1074보다 작은 경우에만 R은 p- 값이 작은 델타 값보다 작다고 가정합니다. R은이 델타 값을 2e-16으로 표시합니다. 내 생각 엔 "<2e-16"은 실제로 p- 값에서 "<2 ^ -1074"를 의미합니다
user3590816

6
그러나 귀하의 추측은 틀 렸습니다 : @Sven이 말하려고하는 것입니다. 에서와 같이 도움말을 format.pval보거나 간단히 사용해보십시오 format.pval(1e-16).
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.