p- 값 분포의 높은 분산 (Taleb 2016의 논거)


16

2016 년 탈 레브 (Taleb), 표준 P- 값의 메타-분포 에서 이루어진 큰 그림 주장을 이해하려고합니다 .

그것에서 Taleb는 p- 값의 신뢰성에 대해 다음과 같은 주장을합니다 (내가 이해하는 것처럼).

일부 분포 로부터 오는 데이터 포인트 에 동작하는 추정 절차는 p 값을 출력한다. 이 분포에서 n 개의 점을 더 끌어 내고 다른 p 값을 출력하면 이러한 p- 값의 평균을 소위 "진정한 p- 값"으로 제한 할 수 있습니다.nX

이 "진정한 p- 값"은 분산이 크게 변하는 것으로 나타 났으며, "진정한 p 값" 를 갖는 분포 + 절차 는 시간의 60 %가 p- 값 <.05를보고 할 것입니다..12

질문 : 값 에 찬성하여 전통적인 주장과 어떻게 조화를 이룰 수 있습니까? 내가 이해하는 것처럼 p- 값은 절차가 올바른 간격 (또는 무엇이든)을 줄 시간의 백분율을 알려줍니다. 그러나이 백서는 프로 시저를 다시 실행하면 p- 값이 같지 않기 때문에이 해석이 잘못되었다고 주장하는 것 같습니다.p

요점을 놓치고 있습니까?


1
이 "전통적인 논증"이 무엇인지 설명 할 수 있습니까? 무슨 주장을하고 있는지 잘 모르겠습니다.
Glen_b-복지 주 모니카

이 질문은 흥미롭고 CV에 태그가 있고, 적절하다고 생각되면 추가하고 싶은 p- 값결합한 문헌에 관한 것입니다.
mdewey 2016 년

1
나는 p- 값의 재현성에 관한 질문 이 이것과 매우 밀접한 관련이 있다고 생각합니다 . 아마도 분석은 여기에 언급 된 것과 유사하거나 심지어 동일합니다.
whuber

답변:


13

p- 값은 랜덤 변수입니다.

아래 (a 무단 배포하기위한 적어도 통계치), P 값은 균일 한 분포를 가져야H0

일관된 테스트의 경우, 하에서 샘플 크기가 무한대로 증가함에 따라 p- 값이 한계에서 0으로 이동해야합니다. 마찬가지로, 효과 크기가 증가함에 따라 p- 값의 분포도 0으로 이동하는 경향이 있지만 항상 "확산"됩니다.H1

"진정한"p- 값의 개념은 나에게 넌센스처럼 들립니다. 또는 H 1 하에서 무엇을 의미 합니까? 예를 들어, " 일부 주어진 효과 크기와 샘플 크기에서 p- 값 분포의 평균"을 의미한다고 말할 수 있지만, 스프레드가 축소되어야하는 수렴은 어떤 의미입니까? 샘플 크기를 일정하게 유지하면서 샘플 크기를 늘릴 수있는 것은 아닙니다.H0H1

다음은 하나의 샘플 t- 검정과 에서 작은 효과 크기의 예입니다 . 표본 크기가 작 으면 p- 값이 거의 균일하며 표본 크기가 증가함에 따라 분포는 천천히 0쪽으로 집중됩니다.H1

여기에 이미지 설명을 입력하십시오

이것은 p- 값이 동작하는 방식입니다. 거짓 null의 경우 표본 크기가 증가함에 따라 p- 값이 낮은 값에 더 집중되어야하지만 값을 분배 할 때 제안되는 값은 없습니다 p- 값이 유의 수준보다 높은 경우 유형 II 오류를 확인하십시오. 어쨌든 해당 유의 수준에 "가까워 야"합니다.

α=0.05

대안에서 사용하는 테스트 통계의 분포와 분포에서 수행 할 변환으로 널 아래에서 cdf를 적용하는 것 (p- 값의 분포를 제공함)을 고려하는 것이 종종 도움이됩니다. 구체적인 대안). 이러한 용어로 생각할 때 행동이 왜 그랬는지 알기가 어렵지 않습니다.

내가 본 문제는 p- 값이나 가설 검정에 본질적인 문제가 전혀 없기 때문에 가설 검정이 특정 문제에 적합한 도구인지 또는 다른 것이 더 적절한 지 여부에 대한 경우입니다. 어떤 경우 든 광범위한 브러시 극점의 상황이 아니라 가설 테스트에서 다루는 질문의 종류와 상황의 특정 요구를 신중하게 고려하는 것 중 하나입니다. 불행히도 이러한 문제에 대한 신중한 고려는 거의 이루어지지 않습니다. 너무 자주 "이 데이터에 어떤 테스트를 사용해야합니까?"라는 질문이 있습니다. 관심있는 문제가 무엇인지에 대한 고려없이 일부 가설 검정이 문제를 해결하는 좋은 방법인지 여부는 물론입니다.

한 가지 어려움은 가설 검정이 널리 오해되고 잘못 오용된다는 것입니다. 사람들은 종종 자신이하지 않는 것을 말해 준다고 생각합니다. p- 값은 아마도 가설 검정에 대해 가장 오해 된 것 중 하나 일 것입니다.


미디엄


1
H1H1

3

3
+1. 내 마음에 오는 하나의 관련되고 재미있는 분석은 Geoff Cumming이 "P 값의 춤"이라고 부르는 것입니다. youtube.com/watch?v=5OL1RqHrZQ8 참조 ( "댄스"는 약 9 분 정도 소요됩니다) . 이 작은 설명은 기본적으로 p- 값이 상대적으로 높은 전력에 대해 얼마나 가변적인지를 강조합니다. 나는 신뢰 구간이 p- 값보다 훨씬 낫다는 Cumming의 요점에 동의하지는 않지만 (그리고 그가 "새로운 통계"라고 부르는 것을 싫어 한다), 나는이 금액 변동이 많은 사람들에게 놀라운 것이라고 생각한다. "댄스"는 그것을 보여주는 귀여운 방법입니다.
amoeba는 Reinstate Monica가

10

Glen_b의 답변은 (+1; 내 보충을 고려하십시오)에 있습니다. Taleb이 참조한 논문은 p- 값의 분포를 분석하여 얻을 수있는 정보의 종류 (저자가 p-curve 라고 부르는 사이트; p 형 곡선 분석 응용 프로그램을 포함하여 자원의 무리 여기 ).

저자는 p- 곡선의 두 가지 주요 용도를 제안합니다.

  1. 문헌의 p- 곡선을 분석하여 문헌의 증거 가치를 평가할 수 있습니다 . 이것은 p- 커브를 처음으로 광고 한 것입니다. Glen_b 설명대로 비제 효과 크기 함께있을 다루고는 양의 종래의 임계 값 아래로 휘어 P-곡선이 표시되어야 할 때 본질적으로, P 로서 <.05 작은, P 값은 P-보다 더 가능성이 있어야 p에 더 가까운 값= .05 효과 (또는 효과 그룹)가 "실제"인 경우. 따라서 증거 값의 테스트로 유의 한 양의 스큐를 위해 p- 곡선을 테스트 할 수 있습니다. 반대로, 개발자는 주어진 효과 세트가 다양한 의심스러운 분석 관행의 대상인지 여부를 테스트하는 방법으로 네거티브 스큐 테스트를 수행 할 수 있다고 제안합니다.
  2. 게시 된 p- 값이있는 p- 커브를 사용하여 게시 크기가없는 메타 분석 효과 크기 추정값을 계산할 수 있습니다 . 간결하게 설명하기가 다소 까다롭기 때문에 효과 크기 추정 집중 논문 (Simonsohn, Nelson, & Simmons, 2014a, 2014b)을 확인하고 방법을 직접 읽어 보는 것이 좋습니다. 그러나 본질적으로 저자들은 메타 분석을 수행 할 때 p- 곡선을 사용하여 파일 서랍 효과 문제를 해결할 수 있다고 제안합니다.

그래서, 당신의 더 넓은 질문에 관해서 :

p- 값에 찬성하여 전통적인 주장과 어떻게 조화를 이룰 수 있습니까?

나는 Taleb와 같은 방법이 p- 값을 용도 변경하는 방법을 찾았으므로 p- 값 그룹 을 분석하여 전체 문헌에 대한 유용한 정보를 얻을 수 있지만 하나의 p- 값은 그 유용성에 훨씬 더 제한적입니다.

참고 문헌

Simonson, U., Nelson, LD, & Simmons, JP (2014a). P- 곡선 : 파일 서랍의 열쇠. 실험 심리학 저널 : 일반 , 143 , 534–547.

Simonson, U., Nelson, LD, & Simmons, JP (2014b). P- 곡선 및 효과 크기 : 중요한 결과 만 사용하여 간행물 바이어스 수정. 심리학의 관점 , 9 , 666-681.

Simonson, U., Simmons, JP, & Nelson, LD (2015). 더 나은 P- 커브 : Ulrich and Miller에 대한 응답 인 오류, 사기 및 야심 찬 P- 해킹에 대해 P- 커브 분석을보다 강력하게 만듭니다 (2015). 실험 심리학 저널 : 일반 , 144 , 1146-1152.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.