인용 gung의 위대한 대답
의심되는 바에 따르면, 한 연구원은 한 번 피의자에게 '무의미한'결과를 제시하여 자신이해야 할 일을 물었고 피셔는 '더 많은 데이터를 얻으십시오'라고 말했다.
Neyman-Pearson의 관점에서 볼 때 이것은 명백한 해킹이지만 Fisher의 더 많은 데이터 접근 방식이 적합한 유스 케이스가 있습니까?
인용 gung의 위대한 대답
의심되는 바에 따르면, 한 연구원은 한 번 피의자에게 '무의미한'결과를 제시하여 자신이해야 할 일을 물었고 피셔는 '더 많은 데이터를 얻으십시오'라고 말했다.
Neyman-Pearson의 관점에서 볼 때 이것은 명백한 해킹이지만 Fisher의 더 많은 데이터 접근 방식이 적합한 유스 케이스가 있습니까?
답변:
빈번한 패러다임은 Fisher 's와 Neyman-Pearson의 견해의 혼동입니다. 하나의 접근법과 다른 해석을 사용하는 경우에만 문제가 발생합니다.
더 많은 데이터가 더 많은 증거이기 때문에 더 많은 데이터를 수집하는 데 문제가 있다는 것은 누구나 이상하게 보일 것입니다. 실제로 문제는 더 많은 데이터를 수집하는 것이 아니라 값을 사용하여 관심있는 측정치 인 경우이를 결정하는 데 있습니다. 값을 기반으로 더 많은 데이터를 수집 하는 것은 새로운 값 을 계산하는 경우 에만 해킹 입니다.
연구 질문에 대해 만족스러운 결론을 내릴 증거가 충분하지 않으면 더 많은 데이터를 얻으십시오. 그러나 지금은 연구의 NHST 단계를 넘어서고 관심의 효과 를 정량화 하는 데 집중하십시오 .
흥미로운 점은 베이지안이이 딜레마로 고통받지 않는다는 것입니다. 예를 들어 다음을 고려하십시오.
샘플 크기가 충분히 크면 여기에 설명 된대로 실제 효과 크기가 정확히 0이 아닌 한 테스트는 항상 중요한 결과를 보여줍니다 . 실제로 실제 효과 크기는 0이 아니므로 더 많은 데이터를 수집하면 가장 작은 차이를 감지 할 수 있습니다.
Fisher의 (IMO) 면밀한 답변은 전제에서 '실질적인 차이'와 '실제적으로 관련된 차이'를 접목시키고 있다는 비교적 사소한 질문에 대한 답변이었습니다.
연구원이 내 사무실로 와서 "25g"이라는이 무게를 측정하고 25.0g을 측정 한 것입니다. 나는 잘못 표기된 것으로 생각합니다. 어떻게해야합니까? " "정확한 척도를 얻으십시오."
초기 테스트에 실질적으로 관련된 차이의 크기를 감지 할 수있는 초기 테스트가 제대로 수행되지 않은 경우 더 많은 데이터에 접근하는 것이 적절하다고 생각합니다.
감사. 여기서 명심해야 할 몇 가지 사항이 있습니다.
우리가 P-hacking이라고하는 것은 유의성 검정을 여러 번 적용하고 유의성 결과 만보고하는 것입니다. 이것이 좋은지 나쁜지는 상황에 따라 다릅니다.
설명하기 위해 귀무 가설과 대립 가설이 아니라 베이지안 용어의 실제 효과에 대해 생각해 봅시다. 관심의 영향이 지속적인 분포에서 비롯된 것으로 생각 되면 귀무 가설이 거짓이라는 것을 알고 있습니다. 그러나 양측 테스트의 경우 양수인지 음수인지 알 수 없습니다. 이러한 관점에서 우리는 양측 검정에 대한 p- 값을 추정이 올바른 방향 (긍정적 또는 부정적 영향)을 갖는다는 증거의 강도를 측정하는 수단으로 생각할 수 있습니다.
이제 더 많은 데이터를 얻기 위해 계속 돌아 가면 어떤 일이 발생하는지 고려하십시오. 더 많은 데이터를 얻을 때마다 충분한 데이터에 대해 방향이 올바른 조건에 도달 할 확률 만 높아집니다. 따라서이 시나리오에서는 실제로 더 많은 데이터를 가져 와서 실제로 유형 I 오류의 확률을 높이지만 실수로 잘못된 방향을 결론 지을 가능성을 줄입니다.
P- 해킹의보다 일반적인 남용과는 대조적으로 이것을 사용하십시오. 우리는 매우 작을 확률이 높은 100의 효과 크기를 테스트하고 중요한 것만보고합니다. 이 경우 모든 효과가 작 으면 의미를 선언 할 때 방향이 잘못 될 가능성이 거의 50 %라는 점에 유의하십시오.
물론,이 데이터-더블-다운에서 생성 된 p- 값은 여전히 소금 알갱이와 함께 제공되어야합니다. 일반적으로 효과 크기에 대해 더 많은 사람들이 더 많은 데이터를 수집하는 데 아무런 문제가 없어야하지만 다른 방법으로는 악용 될 수 있습니다. 예를 들어, 영리한 PI 대신 한 번에 100 개의 데이터 포인트를 수집의 실현 수도, 그들은 돈을 잔뜩 절약 할 수 와 는 상당한 아니라면 데이터를 분석하고 다음 (50)를 수집, 첫번째 수집 50 데이터 포인트를 증가 전원을 . 이 시나리오에서는 중요도 선언에 조건부 효과 방향이 잘못 될 가능성이 높아집니다. 100 개의 데이터 요소가 아닌 50 개의 데이터 요소에서 효과의 방향이 잘못 될 가능성이 높기 때문입니다.
마지막으로, 결과가 미미할 때 더 많은 데이터를 얻지 못하는 의미를 고려하십시오 . 그것은 과학을 진전시키지 않는 주제에 대한 더 많은 정보를 수집 하지 않는다는 것을 의미 합니까? 하나의 저전력 연구는 전체 분야를 죽일 것입니다.
대안이 선험적 확률 이 작은 경우 , 널을 기각하지 못하는 실험은 널을 더 감소 시켜서 더 많은 연구가 비용 효율성을 떨어 뜨릴 것입니다. 예를 들어, 사전 확률이 .01 이라고 가정하십시오 . 그러면 엔트로피는 .08 비트입니다. 확률이 .001로 감소하면 엔트로피는 이제 .01입니다. 따라서 데이터를 계속 수집하는 것이 비용 효율적이지 않은 경우가 많습니다. 비용 효율적이되는 한 가지 이유는 아는 것이 너무 중요하여 나머지 0.01 비트 엔트로피도 줄일 가치가 있기 때문입니다.
또 다른 이유는 선험적 확률이 실제로 높은 경우 일 것입니다. 귀하의 경우 사전 확률이 50 % 이상이었다 다음 널을 거부하지 못하는 것은 증가 는 더 많은 데이터를 계속 수집하기 위해 비용 대비 효과 만들기, 당신의 엔트로피를. 효과가 있다고 확신 할 수 있지만 어떤 방향으로 알지 못하는 경우를 예로들 수 있습니다.
예를 들어, 당신이 반 지능 요원이고 부서에 두더지가 있고 그것을 두 명의 용의자로 좁히고 어느 것을 결정하기 위해 통계 분석을하고 있다면 통계적으로 중요하지 않은 결과는 수집을 정당화 할 것입니다 더 많은 데이터.