왜 0.05 <p <0.95 결과가 오탐이라고 불리는가?


9

편집 : 내 질문의 기초에 결함이 있으며, 이해하기 쉬운 지 알아내는 데 시간을 할애해야합니다.

편집 2 : p- 값이 귀무 가설의 확률에 대한 직접적인 척도가 아니라는 것을 인정하지만 p- 값이 1에 가까울수록 가설이있을 가능성이 높습니다 p- 값이 0에 가까울수록 해당 귀무 가설이 거짓 인 실험 테스트에 대해 가설이 선택되었을 가능성이 높습니다. 모든 가설 (또는 실험을 위해 선택된 모든 가설)이 어떻게 병리학적인 것이 아니라면 이것이 어떻게 거짓인지 알 수 없습니다.

편집 3 : 나는 여전히 명확한 용어를 사용하여 내 질문을하지 않는다고 생각합니다. 복권 번호를 읽으면 티켓과 하나씩 일치하게 변경됩니다. 이긴 확률은 변하지 않지만 라디오를 끌 수있는 확률은 변합니다. 실험을 수행 할 때도 비슷한 변화가 있지만 "p- 값이 실제 가설이 선택 될 가능성을 바꾼다"라는 용어가 올바른 용어가 아니라는 느낌이 듭니다.

편집 4 : 내가 작업 할 수있는 풍부한 정보가 포함 된 놀랍도록 상세하고 유익한 답변을 받았습니다. 두 사람 모두에게 투표를 한 다음 두 질문 모두에서 충분한 답변을 얻었을 때 다시 질문에 응답하거나 무효화되었다는 사실을 알기 위해 다시 참석하겠습니다. 이 질문은 내가 먹을 것으로 예상되는 것보다 훨씬 큰 벌레 캔을 열었습니다.

내가 읽은 논문에서 "false positives"라고 불리는 유효성 검사 후 p> 0.05의 결과를 보았습니다. 그러나 실험 데이터의 p <0.50 이 낮지 만 0.05 보다 크고 귀무 가설이 아닌 경우에 해당하는 귀무 가설로 검정하기 위해 가설을 선택했을 가능성이 여전히 높지 않습니까? @NickStauner의 링크 에서 지적 된 비대칭 성을 고려할 때, p <0.05의 역수에 관계없이 0.05 <p < 0.95 사이의 어디에서든 통계적으로 불확실한 / 무의미한 (전통적인 통계적 유의성 컷오프를 얻음) 연구 가설은 ?

그 숫자 A를 호출하고 p- 값으로 정의합니다. p- 값이 0.05 일 때 실험 / 분석에 대해 실제 귀무 가설을 고른 가능성에 대해 같은 것을 말하는 p- 값으로 정의하겠습니다. ve는 실험 / 분석에 대한 널이 아닌 가설을 선택했습니다. 0.05 <p <A가 아닙니다. "샘플 크기가 질문에 대답하기에 충분히 크지 않았으므로 더 큰 샘플을 얻고 통계를 얻을 때까지 응용 프로그램 / 실제 중요성을 판단 할 수 없습니다. 의미가 정리 되었습니까? "

다시 말해, p> A 인 경우에만 단순히 지원되지 않고 거짓으로 결과를 호출하는 것이 정확하지 않아야합니까?

이것은 나에게 똑바로 보이지만, 널리 퍼져있는 사용법은 내가 틀렸다는 것을 말해줍니다. 나는 :

a) 수학을 잘못 해석하는 경우
b) 무해한 경우에는 정확하지 않은 규칙에 대해 불평하는 경우
c) 완전히 정확한 경우 또는
d) 기타

나는 이것이 의견을 요구하는 것처럼 들리지만 이것은 나 또는 거의 모든 사람들이 잘못되고 있다는 명확한 수학적으로 올바른 대답 (한 번 유의미한 컷오프가 설정되어 있음)이있는 질문처럼 보입니다.


1
안녕 데이비드. 여기에 내가 그것에 대해 생각하고있어 종이의 : 링크
앤드류 클라 센

2
첫 번째 라인에서는 "결과 ... 쓰기 대신 의미하지 않는다 원래 와 하지만 그 다음으로 ... 검증 후"? 임계 값 보다 큰 결과는 그렇지 않은 경우 부정적인 결과 라고합니다 . 편집 한 후에도 의 해석에 대한 특성 이 잘못되었으므로 잠시 시간을 내어 p- 값 해석대한 게시물 을 검토 하고 요청하려는 내용을 재고하십시오. p<0.05p0.05pα
whuber

1
원한다면 질문을 삭제할 수 있지만, 두 개의 공감대 (오, 3으로하자)와 공감 된 답변을 받고 "정말로"다른 답변을 받으려고 할 때, 나는 당신이 떠나라고 요청합니다. 나는 당신이 원하는대로 행동 할 권리를 정중하게 연기하고 있지만 건배!
Nick Stauner 2013

1
@Nick, Andrew에 동의합니다. 여기에 약간의 생각과 관심을 끄는 강력하고 도발적인 질문이 있으므로 게시 한 상태로 유지하고 가능한 경우 조금만 수정하면 가장 감사하겠습니다 p- 값을 해석하는 방법에 관한 주요 문제. 내가 알 수있는 것의 새로운 부분은 거부 기준이 큰 p- 값에 기초해야한다는 제안이다. 당신의 코멘트를 다시 : 테스트가 중요하지만이 경우 오 탐지가 발생 알려진 귀무 가설이 사실이라고.
whuber

1
@ whuber : 나에게 더 매력적인 배경 초점은 더 큰 샘플 크기의 후속 실험이 생산적 일 가능성이 있다는 결과에 어떤 결과가 나올지에 대한 것입니다. 지금까지의 반응을 고려할 때 p- 값이 해당 질문과 관련이 있는지 여부를 물어볼 필요가 있습니다. 귀무 가설이 거짓 긍정의 척도로서 참이라는 것을 알고 : 언제 귀무 가설이 상황 밖에서 참이라고 말하는가? p> (1-α)?
Andrew Klaassen

답변:


15

귀하의 질문은 잘못된 전제에 기초합니다 :

p <0.50 일 때 귀무 가설이 여전히 틀리지 않을 가능성이 더 높지 않음

p- 값은 귀무 가설이 참일 확률 이 아닙니다 . 예를 들어 귀무 가설이 참인 경우를 천 번 건의 경우 절반이가 p < .5됩니다. 그 절반은 모두 null입니다.

실제로 p > .95귀무 가설이 "아마도 사실" 이라는 의미는 오해의 소지가 있습니다. 귀무 가설이 참이면 확률과 확률 p > .95이 정확히 같습니다 p < .05.

ETA : 편집하면 문제가 더 명확 해집니다. 위의 문제가 여전히 남아 있습니다 (p- 값을 사후 확률로 처리하지 않는 경우). 이것은 미묘한 철학적 차이 가 아니라는 점에 유의해야 합니다.

그러나이 있다 당신은 당신이 찾고있는 당신을 얻을 것이다 P-값을 수행 할 수있는 변환하고, 로컬 거짓 검색 속도라고합니다. (이 멋진 논문 에서 설명했듯이 , 이는 "주요 오류 확률"과 동일한 빈도수이므로 원한다면 그렇게 생각하십시오.)

구체적인 예를 살펴 보겠습니다. 정규 분포의 10 개 숫자 표본의 평균이 0 (단일 표본, 양면 t- 검정)인지 확인하기 위해 t- 검정을 수행한다고 가정 해 보겠습니다. 첫째, 어디 보자 무슨 의미가 실제로 때와 같은 p- 값의 분포 모습 입니다 짧은 R 시뮬레이션과 제로 :

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

여기에 이미지 설명을 입력하십시오

보시다시피, null p- 값은 균일 한 분포를 갖습니다 (0과 1 사이의 모든 지점에서도 동일). 이것은 p- 값의 필수 조건입니다. 실제로 p- 값이 의미하는 바입니다! (널 (null)이 true 인 경우, 5 % 확률은 .05 미만, 10 % 확률은 .1 미만입니다 ...)

이제 널이 거짓 인 대립 가설을 생각해 보자. 이제 이것은 좀 더 복잡합니다. null이 거짓 일 때 "얼마나 거짓"입니까? 표본의 평균은 0이 아니지만 0.5입니까? 1? 10? 무작위로, 때로는 작고 때로는 다양합니까? 간단하게하기 위해 항상 .5와 같다고합시다 (단, 합병증은 나중에 중요 함을 기억하십시오).

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

여기에 이미지 설명을 입력하십시오

분포가 이제 균일하지 않습니다. 0으로 이동합니다! 귀하의 의견에 정보를 제공하는 "비대칭"을 언급합니다. 이것이 비대칭입니다.

따라서이 두 가지 분포를 모두 알고 있지만 새로운 실험을 진행하고 있으며 50 %의 확률로 50 %의 확률이있을 수도 있고, 대체로 50 % 일 수도 있습니다. p- 값은 .7입니다. 그것과 p- 값에서 확률로 어떻게 얻을 수 있습니까?

당신이해야 할 일은 밀도를 비교하는 것입니다 .

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

그리고 당신의 p- 값을보십시오 :

abline(v=.7, col="red", lty=2)

여기에 이미지 설명을 입력하십시오

널 밀도와 대체 밀도 사이의 비율을 사용하여 로컬 허위 발견 비율 을 계산할 수 있습니다 . 널에 대한 대안은 널에 비해 높을수록 로컬 FDR이 높습니다. 그것은 가설이 무효가 될 확률입니다 (기술적으로는 더 빈번한 해석이 있지만 여기서는 간단하게 유지할 것입니다). 경우 값이 매우 높고, 다음, 당신은 해석 "는 귀무 가설이 거의 확실 사실이다."할 수 있습니다 실제로 로컬 FDR의 임계 값을 .05 및 .95로 지정할 수 있습니다. 원하는 속성이 있습니다. (그리고 로컬 FDR은 p- 값에 따라 단조롭게 증가하므로 적어도 올바르게 수행하면 일부 임계 값 A와 B로 변환되어 "

자, "당신은 왜 p- 값 대신에 그것을 사용하지 않습니까?" 두 가지 이유 :

  1. 검정이 무효 일 확률을 미리 결정해야합니다.
  2. 대안에서 밀도를 알아야합니다. 효과 크기와 분산이 얼마나 클 있는지, 얼마나 자주 영향을 미치는지를 결정해야하기 때문에 추측하기 가 매우 어렵습니다 !

p- 값 테스트에는 둘 중 어느 것도 필요하지 않으며 p- 값 테스트를 통해 여전히 오탐 (주 목적)을 피할 수 있습니다. 지금, 이다 당신이 P-값의 수천이있을 때, 여러 가설 테스트에서 그 두 값을 추정 할 수있다 (예를 들면 한 수천 개의 유전자의 각 시험 등은 다음을 참조하십시오 이 문서 또는 이 논문 예를 들어)를,하지만 때를 '단일 테스트를하고 있습니다.

마지막으로, ".05 이상의 p- 값으로 이어지는 복제가 반드시 오 탐지라고 말하는 것이 여전히 잘못된 것이 아닌가?" p- 값이 .04이고 다른 p- 값이 .06을 얻는다고해서 원래 결과가 잘못되었다는 것은 아니지만 실제로는 합리적인 선택입니다. 그러나 어쨌든 다른 사람들이 그것에 대해 의심을 가지고 있다는 것을 알게되어 기쁩니다! : 당신은 참조 논문은 통계에 다소 논란 이 논문은 다른 방법을 사용하고 의학 연구에서의 p 값에 대한 매우 다른 결론에 제공하고 연구를 비판 한 것을 일부 저명한 베이 즈 (에 의해 라운드와 라운드가 간다 ...). 따라서 귀하의 질문은 p- 값에 대한 잘못된 가정을 기반으로하지만 귀하가 인용 한 논문 부분에서 흥미로운 가정을 조사한다고 생각합니다.


안녕 데이비드. 페어 포인트. 나는 그 부분이 잘못되지 않도록 내 질문을 다시 표현하고 여전히 문제가 있는지 알아볼 것입니다.
Andrew Klaassen

@David_Robinson : 베이지안 규칙에서 p- 값을 오경보 율로 사용하고 연구 확률 및 / 또는 그로부터 귀무 가설에 대한 결론을 도출 할 수 있습니까? 이전을 50 %로 설정하고 빠르게 느슨하게 연주하십니까? :-)
Andrew Klaassen 2013

1
예, 매혹적인! 당신은 당신의 대답에 그것을 사용할 수 있습니까? 그러나 null이 참일 때와 p에서 추출 된 p- 값을 기반으로 널 가설이 참일 가능성에 대한 정보를 제공해야한다는 거짓에 대해 p의 작동 방식 사이에는 비대칭 성이 있습니다. 실제 귀무 가설이 균일하게 분포 된 p- 값을 생성하고 실제 귀무 가설이 0을 향해 기울어 진 p- 값을 생성하는 경우 ap = 0.01 marble ~ must ~을 뽑아서 실험을 수행하여 확률이 변경되지 않더라도 -njar의 실험.
앤드류 클라 센

1
@AndrewKlaassen : "로컬 오 탐지율"개념에 관심이있을 수 있습니다. 널이 참일 경우 베이지안 후 확률에 해당하는 빈도수입니다. a) 널이 참일 수도있는 사전 확률 (때로는 pi0이라고도 함)과 b) 대립 가설의 밀도 추정치. 다중 가설 검정 (수천 개의 p- 값이있는 경우)에서는 밀도를보고이 두 가지를 모두 추정 할 수 있습니다. 시간이 좀 더 있으면 답변에 대해 더 깊이 설명 할 수 있습니다.
David Robinson

1
@ AndrewKlaassen : 로컬 FDR을 자세히 설명하는 편집 내용을 참조하십시오. 왜 A 값을 계산하는 방법인지 (A를 계산하는 동안 .05를 변경하고 싶을 수도 있지만) 거의 사용되지 않는 이유는 무엇입니까? . 어쨌든 대답에 실제로 맞지 않는 한 가지 점을 명확히하기 위해 : 복권을 가진 당신의 예는 나와 다른 사람들이하고있는 요점을 이해하지 못합니다. 우리는 "새로운 정보로 확률을 바꾸는 것"(베이지안과 잦은 사람들이 그에 대한 해석을 가지고 있음)이라는 생각에 매달리지 않았습니다. 요점은 단지 당신이 올바른 길을 바꾸지 않았다는 것입니다!
David Robinson

10

마우스를 아무 곳에 나 올려 놓으세요 (아래에 표시되어 위키의 간략한 발췌 내용을 볼 수 있습니다. 줄 간격의 중단을 용서하십시오. 태그 발췌는 독자가 읽는 동안 전문 용어에 대한 이해를 확인하는 데 도움이 될 수 있기 때문에 가치가 있다고 생각합니다. 이 발췌 부분 중 일부는 편집 할 가치가 있으므로 홍보 인 IMHO도 필요합니다.

>.05 일반적으로 거부하지 않아야 함을 암시 . 거꾸로,또는 다음 으로 인해 널을 거부 할 때 오 탐지가 발생합니다. 오류 또는 기타 비정상적인 사고로 인해 그렇지 않으면 (보통 <.05)에서 무작위로 샘플링 한 여기서 널이 참입니다. 결과>.05 그것은 거짓 긍정이라고 불립니다 귀무 가설에 대한 오해를 반영하는 것 같습니다 ING (NHST). NHST는 반 직관적으로 악명 높기 때문에 출판 된 연구 문헌에서 오해가 드물지 않습니다. 이것은의 집회 울음 중 하나입니다침략 (나는 지원하지만 아직 따르지 않음). 나는 최근까지도 이와 같은 잘못된 인상을 가지고 일해 왔으므로 가장 진심으로 동정합니다.

@DavidRobinson은 다음을 관찰하는 것이 정확합니다. 널이 거짓 일 확률이 아니다 NHST. 이것은 적어도 Goodman (2008) "Dirty Dozen"의 오해 중 하나입니다.가치 ( Hurlbert & Lombardi, 2009 참조 ) . NHST에서 입니다 관계 또는 차이를 나타내는 동일한 방법으로 미래의 임의 샘플을 추출 할 것입니다. 다른 효과 크기의 다른 종류가 존재하는 경우 null에 대해 테스트되고 있습니까? ...) 동일한 모집단의 샘플이 주어진 결과에 도달하기 위해 최소한 null 귀무 가설과 다른 경우 널이 참인 경우. 그건,null이 주어진 샘플과 같은 샘플을 얻을 확률입니다 . 그것은 적어도 직접적으로는 아니고 널 (null)의 확률을 반영하지 않습니다. 반대로 베이지안 방법은 통계적 분석의 공식화에 대해 또는그들이 주장 하는 데이터 에 대한 효과 이론은 다른 장점들 중에서도 보다 직관적으로 호소력있는 접근법 이며 ( Wagenmakers, 2007 ) 논쟁의 여지가있는 단점을 제외하고있다. (공평하게, " 베이지안 분석의 단점은 무엇입니까? "를 참조하십시오. 또한 Moyé, 2008; Hurlbert & Lombardi, 2009에서 멋진 답변을 제공 할 수있는 기사를 인용하는 것에 대해서도 언급했습니다 .)

논란의 여지가 있지만, 귀무 가설은 가장 일반적으로 말 그대로 효과 의 가설이기 때문에 말 그대로 언급 된 귀무 가설은 종종 틀리지 않을 가능성이 높습니다 . (일부 편리한 반례의 경우, " 대규모 데이터 세트가 가설 ​​검정에 부적합한가? "에 대한 답변을 참조하십시오. ) 나비 효과 와 같은 철학적 문제 는 문자 그대로를 위협합니다그러한 가설의 따라서 널은 0이 아닌 일부 효과의 대체 가설에 대한 비교의 기초로 가장 일반적으로 유용합니다. 이러한 대안 적 가설은 데이터가 수집 된 후 null이 true 인 경우 불가능 했을 null보다 더 타당한 것으로 남아있을 수 있습니다 . 따라서 연구자들은 일반적으로 귀무에 대한 증거로부터 대체 가설에 대한 지원을 유추하지만, 그렇지 않습니다.직접 정량화 ( Wagenmakers, 2007 ) .

당신이 의심하는 것처럼 의 기능이다 효과 크기와 일관성뿐만 아니라 (참조는 @ 최근의 질문에 궁의 대답은, " 평균 차이가 거의 0 인 경우 어떻게 t-test를 통계 학적으로 유의 할 수 있는가? ") 우리는 종종 우리의 데이터를 요청하고자하는 질문은 효과 무엇 "이다 x에가 y? " 다양한 이유로 (특히 통계가 아닌 사람들이 가르치는 통계에서 IMO, 오해의 여지가 있거나 부족한 교육 프로그램을 포함하여), 우리는 종종 느슨하게 관련된 질문을 묻습니다. 에 x영향을 미치지 않는 인구에서 y? " 이것이 각각 효과 크기 추정과 유의성 테스트의 필수 차이입니다. ㅏ 가치는 후자의 질문에만 직접적으로 대답하지만 여러 전문가 (@rpierce는 아마도 나보다 더 나은 목록을 제공 할 수 있습니다. 효과 크기에 대한 이전 질문에 대한 답변으로 너무 자주; 동의해야합니다.

의 의미에 대해 더 직접적으로 대응하기 위해 .05<<.95, 이는 null이 참인 모집단에서 무작위로 데이터를 샘플링 할 확률이지만, 데이터만큼이나 널이 최소한 넓고 일관된 여백에 의해 문자 적으로 설명하는 것과는 다른 관계 또는 차이를 나타냅니다. .. <흡입>은 5–95 % 사이입니다. 샘플 크기를 늘리면 작고 일치하지 않는 효과 크기를 감지하고 5 %를 초과하는 신뢰도를 가진 영 (zero) 효과와 차별화하는 능력을 향상시키기 때문에 이것이 샘플 크기의 결과라고 확신 할 수 있습니다. 그러나 작고 일관되지 않은 효과 크기는 실용적 으로 중요 하지 않을 수도 있습니다 (통계적으로 유의미 함 – Goodman (2008)의 또 다른 수십 가지); 이는 데이터의 의미에 훨씬 더 의존하며, 통계적 유의성은 제한된 범위에만 해당됩니다. 위의 내 답변을 참조하십시오 .

... p> 0.95 인 경우 결과를 확실히 지원하지 않고 거짓으로 호출하는 것이 정확하지 않습니까?

데이터 일반적으로 경험적으로 사실적인 관찰을 나타내므로 거짓이 아니어야합니다. 그들에 대한 추론 만이 이상적으로이 위험에 직면해야합니다. (측정 오류는 물론 발생하지만 해당 문제는이 답변의 범위를 벗어났습니다. 여기서 언급하지 않고 따로 남겨 두겠습니다.) 항상 null이 덜 유용하다는 잘못된 긍정 추론을 만드는 위험이 있습니다. 적어도 추론자가 널이 참이라는 것을 알지 않는 한, 대체 가설보다. 생각하기 어려운 지식의 상황에서만 널이 문자 적으로 사실이라는 것만으로, 적어도 지금 당장 상상할 수있는 한, 대체 가설을 선호하는 추론은 반드시 거짓 일 입니다.

분명히 널리 사용되거나 관습은 유행이나 추론의 유효성에 대한 최고의 권한이 아닙니다. 출판 된 자원조차도 오류가 있습니다. 예를 들어 p- 값 정의의 오류를 참조하십시오 . 참고 문헌 ( Hurlbert & Lombardi, 2009 ) 에서도이 원칙에 대한 흥미로운 설명을 제공합니다 (322 페이지).

StatSoft (2007)는 웹 사이트 에서 온라인 설명서가 "백과 사전 브리타니 카 (Encyclopedia Brittanica)가 권장하는 통계에 대한 유일한 인터넷 리소스"라는 것을 자랑합니다 . " 범퍼 스티커에서 알 수 있듯이 'Distrust Authority'가 그렇게 중요하지 않았습니다. [만화가 깨진 URL이 하이퍼 링크 텍스트로 변환되었습니다.]

또 다른 사례가있다 : 가장 최근의 Nature News 기사 ( Nuzzo, 2014 ) 에서이 문구는 : "P 가치, 증거의 강도에 대한 공통 지수 ..." Wagenmakers (2007, 페이지 787) "문제 3 :가치는 통계적 증거를 정량화하지 않는다 "... 그러나 @MichaelLew ( Lew, 2013 ) 는 유용하다고 생각하는 방식에 동의하지 않습니다.우도 함수를 색인하기위한 값. 그러나이 출판 된 자료들이 서로 모순되는 한 최소한 하나는 틀려 야합니다! (어떤 수준에서, 나는 생각한다 ...) 물론 이것은 "신뢰할 수없는"그 자체만큼 나쁘지 않다. 나는 내가 가진 것처럼 태그를 지정하여 Michael을 여기에 속일 수 있기를 바랍니다 (그러나 사용자 태그를 편집 할 때 알림을 보낼지는 확실하지 않습니다. OP에서 귀하의 것으로 생각하지 않습니다). 그는 Nuzzo를 구할 수있는 유일한 사람 일 수 있습니다 – 심지어 자연 그 자체! 오비완 도와주세요! (여기서 나의 대답이 여전히 당신의 작업의 의미를 이해하지 못했다는 것을 용서하십시오. 어쨌든 확실합니다 ...) BTW, Nuzzo는 또한 흥미로운 자기 방어와 반박을 제공합니다. Wagenmaakers의 "문제 3": Nuzzo의 "가능한 원인"참조( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner, & Greenberg, 2007 ) . 이것들은 당신이 정말로 찾고있는 대답을 포함 할 수도 있지만, 내가 말할 수는 없을 것입니다.

다시 : 당신의 객관식 질문, 나는 선택 d합니다. 여기에 몇 가지 개념을 잘못 해석했을 수도 있지만, 그렇지 않은 경우에는 반드시 혼자가 아니며, 당신이 정말로 믿는 것을 아는 것만으로 판단을 내릴 것입니다. 오해는 어느 정도의 확실성을 암시하지만, 질문하는 것은 반대를 의미하며, 불확실 할 때 의문의 충동은 상당히 칭찬받을 수 있고 유비쿼터스와는 거리가 멀다. 인간의 본성에 관한 문제는 우리의 협약의 부정확성을 슬프게도 무해하게 만들지 않으며 여기에 언급 된 불만과 같은 불평을받을 가치가 있습니다. (일부 감사합니다!) 그러나 귀하의 제안도 완전히 정확하지는 않습니다.

관련된 문제에 대한 흥미로운 토론 내가 참여한 값은이 질문에 나타납니다 : p- 값의 확고한 견해 수용 . 내 답변에는 해석상의 문제와 대안에 대한 추가 정보를 읽는 데 유용한 몇 가지 참고 문헌이 나와 있습니다.가치. 미리 경고하십시오 : 나는 여전히이 특정 토끼 구멍 의 바닥에 부딪치지 않았지만 적어도 그것이 매우 깊다는 것을 말할 수 있습니다 . : 나는 아직도 그것에 대해 자신을 (! 또는 어쩌면 NFSA 관점 다른 내가 더 베이지안 관점 [편집]에서 작성 될 거라고 생각 배우고 Hurlbert & 롬바르디, 2009 ) , I는 최상의 약한 권한이다, 나는 환영 다른 사람들이 내가 말한 내용에 대해 정정하거나 정교하게 제공 할 수 있습니다. 내가 결론을 내릴 수있는 것은 아마도 수학적으로 정답 일 수 있다는 것입니다. 대부분의 사람들이 잘못 생각할 수도 있습니다. 다음 참고 문헌에서 알 수 있듯이 정답은 확실히 쉽지 않습니다 ...

추신 : 요청에 따라 (일종의 ... 나는 실제로 작업하는 대신 이것을 시도하고 있음을 인정합니다),이 질문은 때때로 균일 한 분포에 대한 더 나은 참조 입니다" n- 가설 하에서 p- 값이 균일하게 분포되는 이유는 무엇입니까? "특히 @whuber의 의견은 예외 클래스를 발생시킵니다. 전체적으로 논의가 어느 정도 사실이므로, 나는 그 의미를 포함하여 100 % 논증을 따르지 않기 때문에 이러한 문제가 확실하지 않습니다.분포 균일 성은 실제로 예외적입니다. 심오한 통계적 혼란의 추가 원인, 나는 두렵다.

참고 문헌

-Goodman, SN (1992). 복제, P- 값 및 증거 에 대한 의견 . 의학 통계, 11 (7), 875-879.
-Goodman, SN (2001). 의 P의 겸손한 제안 : -values와 베이 즈. 역학, 12 (3), 295–297. http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf 에서 검색했습니다 .
-Goodman, S. (2008). 더러운 12 가지 : 12 가지 P- 값 오해. 혈액학 세미나, 45 (3), 135–140. http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf 에서 검색했습니다 .
-Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., & Greenberg, DA (2007). 연관 연구의 비 복제 : 복제하는 "의사-실패"? 의학 유전학, 9 (6), 325–331. http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html 에서 검색했습니다 .
-Hurlbert, SH, & Lombardi, CM (2009). Neyman-Pearson 의사 결정 이론 프레임 워크의 최종 붕괴와 신 피셔 인의 등장. Annales Zoologici Fennici, 46 (5), 311–349. http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf 에서 검색했습니다 .
-Lew, MJ (2013). P로 또는 P로 : P- 값의 증거 적 성격과 과학적 추론에서의 위치. arXiv : 1311.0081 [stat.ME]. 에서 검색http://arxiv.org/abs/1311.0081 .
-LA, Moyé (2008). 임상 시험의 베이지안 : 스위치에서 자고 있습니다. 의학 통계, 27 (4), 469–482.
-R. Nuzzo (2014 년 2 월 12 일). 과학적 방법 : 통계 오류. Nature News, 506 (7487). http://www.nature.com/news/scientific-method-statistical-errors-1.14700 에서 검색했습니다 .
-EJ Wagenmakers (2007). p 값 의 광범위한 문제에 대한 실질적인 해결책 . 심리학 적 게시판 및 검토, 14 (5), 779–804. http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf 에서 검색했습니다 .


: 나는 아직도 (IT 주셔서 감사합니다) 당신의 아주 철저한 대답을 통해 일하고 있어요,하지만 "베이지안 침공"당신의 언급은 내가 "스위치에서 잠 임상 시험에서 베이 즈"의 생각하게 여기 12 장으로 증쇄 , I ' 나도 천천히 머리를 감쌌다.
앤드류 클라 슨

"볼 수없는 페이지에 도달했거나이 책의보기 제한에 도달했습니다"...?
Nick Stauner 2013

1
운이 없었어. 저널 액세스 권한이있는 경우 여기 에서도 찾을 수 있습니다 . "베이지 인들이 현재 임상 시험에서 전통적인 장벽을 무너 뜨리고있다"는 문구를 검색해도 도움이 될 수 있습니다.
Andrew Klaassen

1
Neyman-Pearson 의사 결정 이론 프레임 워크의 최종 붕괴와 네오 피셔 리언의 등장 은 p- 값의 재미있는 역사와 연구에서 베이지안 분석의 사용에 대한 공격을 포함합니다. 나는 그것을 평가하기에 충분히 이해한다고 말할 수는 없지만, 적어도 현재의 열정에 대한 교정을 알고있는 것이 좋다고 생각합니다.
Andrew Klaassen

1
@NickStauner이 토론을 찾았습니다. 동의하지 않는 일련의 계정이있는 경우 하나 이상의 계정이 잘못 될 필요는 없습니다. 그들은 다른 모델을 기반으로 할 수 있습니다. [당신이 게임이라면 Bill Thompson의 저서 The Nature of Statistical Evidence (2005)를 읽어야합니다.) 그럼에도 불구하고 내 계정은 옳습니다 ;-) (오늘 아침 저널에 의해 거부 당했지만) 부주의하고 오해의 소지가 있습니다.
Michael Lew
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.