Fisher의 "더 많은 데이터를 얻을 수있는"접근 방식은 언제 합리적입니까?


25

인용 gung의 위대한 대답

의심되는 바에 따르면, 한 연구원은 한 번 피의자에게 '무의미한'결과를 제시하여 자신이해야 할 일을 물었고 피셔는 '더 많은 데이터를 얻으십시오'라고 말했다.

Neyman-Pearson의 관점에서 볼 때 이것은 명백한 해킹이지만 Fisher의 더 많은 데이터 접근 방식이 적합한 유스 케이스가 있습니까?p


9
Fisher는 (반복적으로) 실험 복제의 중요성을 강조했으며 이것이 대화의 의도라고 생각합니다. 확실히 Fisher는 유의성을 확인할 수없고 초기 샘플을 얻지 못하면 확장 할 수 없음을 잘 알고있을 것입니다.
Glen_b-복지국 모니카

@Glen_b 나는 "실험의 복제"라는 구절을 들었지만 그것을 얻지 못했습니다. 정교하게 할 수 있습니까? 예를 들어, 표본 크기가 100 인 단일 실험보다 표본 크기가 10 인 실험을 10 회 복제 한 것입니까?
nalzok

탐색 적 연구에서 더 많은 데이터를 얻을 수 있습니다. 확인 연구에서는 더 많은 데이터를 얻을 수있는 입장이 없습니다.
user158565

4
통계 실습에 대한 논란의 여지가있는 견해 중 하나는 오 탐지 문제를 고려하는 것이 중요하지만 유형을 보존하기 위해 데이터에서 배우기를 거부하는 높은 받침대에 유형 1 오류율을 보존해서는 안된다는 것입니다 1 오류율.
Cliff AB

답변:


28

빈번한 패러다임은 Fisher 's와 Neyman-Pearson의 견해의 혼동입니다. 하나의 접근법과 다른 해석을 사용하는 경우에만 문제가 발생합니다.

더 많은 데이터가 더 많은 증거이기 때문에 더 많은 데이터를 수집하는 데 문제가 있다는 것은 누구나 이상하게 보일 것입니다. 실제로 문제는 더 많은 데이터를 수집하는 것이 아니라 값을 사용하여 관심있는 측정치 인 경우이를 결정하는 데 있습니다. 값을 기반으로 더 많은 데이터를 수집 하는 것은 새로운 값 을 계산하는 경우 에만 해킹 입니다.pppp

연구 질문에 대해 만족스러운 결론을 내릴 증거가 충분하지 않으면 더 많은 데이터를 얻으십시오. 그러나 지금은 연구의 NHST 단계를 넘어서고 관심의 효과 를 정량화 하는 데 집중하십시오 .


흥미로운 점은 베이지안이이 딜레마로 고통받지 않는다는 것입니다. 예를 들어 다음을 고려하십시오.

  • 잦은 주의자가 유의미한 차이가 없다고 결론을 내고 동등성 검정으로 바꾸면, 오 탐지율이 증가한 것입니다.
  • 베이지안은 가장 높은 밀도 간격과 차이의 실질적인 동등 영역을 동시에 표현할 수 있으며 밤에도 동일하게 잠을 잘 수 있습니다.

따라서 기본적으로 모집단 A의 평균이 모집단 B의 평균과 같은지 테스트하고 싶다고 가정하겠습니다. 처음에 데이터를 얻고 대한 테스트를 수행 합니다. 이 경우 H 0에 대해 다른 테스트를 수행 하지 않아야합니다. "평균이 같지 않습니다". 내가 할 수있는 모든 수단의 기밀 간격을 추정하는 것입니다, 맞습니까? 두 간격이 겹치지 않으면 어떻게됩니까? H0H0
nalzok

6
"새로운 p- 값을 계산하는 경우에만 p- 해킹입니다." 이것은 실제로 p- 값을 계산하는 데 사용되는 방법에 전적으로 의존하지 않습니까? 순차적 분석 및 더 많은 데이터를 수집하기로 한 결정을 무시하면 p- 값이 정확하지 않게됩니다. 그러나 p- 값 계산에 더 많은 데이터를 수집하기 위해 결정 규칙을 통합하면 유효한 p- 값이 생성됩니다.
jsk

4
@jsk 차후에 계산 된 p- 값이 어떤 방식 으로든 무효화되는 것이 적고, 실험이 "정확한"시기이고 해당 프로젝트에 대한 연구가 "언제나"데이터가 아닌 임의의 표준을 사용하고 있다고 판단하는 경우가 많습니다. 끝난". 이외의 모든 중요한 P-값이 잘못된 것을 결정하고, 하나 얻을 때까지 데이터를 수집 입니다 의미를 다음이 "오른쪽"결과를 입수했기 때문에 중지하면 실험 과학의 반대입니다.
Upper_Case-Stop Harming Monica

1
@Upper_Case p-hacking과 관련하여 게시물의 아주 작은 섹션에 대해 언급하고 있었기 때문에 해당 섹션을 따옴표로 묶었습니다. 당신은 나의 진술을 너무 많이 읽고 있습니다. 내 요점은 더 많은 데이터를 수집하는 데 사용되는 모든 결정 규칙을 p- 값 계산에 통합해야한다는 것입니다. p- 값 계산에 내린 결정을 통합하는 한 원하는 경우 유효한 NHST를 수행 할 수 있습니다. 그렇다고해서 "중요한 결과를 찾을 때까지 더 많은 데이터를 수집하십시오"라는 중지 규칙을지지한다는 의미는 아닙니다.
jsk

@jsk 아, 지금 당신의 요점을 더 잘 이해합니다. 명확하게 해 주셔서 감사합니다.
Upper_Case-Stop Harming Monica

10

샘플 크기가 충분히 크면 여기에 설명 된대로 실제 효과 크기가 정확히 0이 아닌 한 테스트는 항상 중요한 결과를 보여줍니다 . 실제로 실제 효과 크기는 0이 아니므로 더 많은 데이터를 수집하면 가장 작은 차이를 감지 할 수 있습니다.

Fisher의 (IMO) 면밀한 답변은 전제에서 '실질적인 차이'와 '실제적으로 관련된 차이'를 접목시키고 있다는 비교적 사소한 질문에 대한 답변이었습니다.

연구원이 내 사무실로 와서 "25g"이라는이 무게를 측정하고 25.0g을 측정 한 것입니다. 나는 잘못 표기된 것으로 생각합니다. 어떻게해야합니까? " "정확한 척도를 얻으십시오."

초기 테스트에 실질적으로 관련된 차이의 크기를 감지 할 수있는 초기 테스트가 제대로 수행되지 않은 경우 더 많은 데이터에 접근하는 것이 적절하다고 생각합니다.


요점은 p- 값 계산에 더 많은 데이터를 얻기 위해 결정을 통합해야한다는 것입니다.
jsk

@jsk는 p- 값을 변경하더라도 더 많은 데이터를 수집하여 중요한 결과를 찾을 수 있습니다 (더 많은 데이터가 필요할지라도).
Underminer

1
나는 더 명확 할 수 있었다. "여러분은 여전히 ​​중요한 결과를 찾기 위해 더 많은 데이터를 수집 할 수 있습니다"라는 것이 무슨 뜻인지 잘 모르겠습니다. 귀무 가설은 일반적으로 실제로 사실이 아니기 때문에 더 많은 데이터를 수집하면 결국 중요한 결과를 얻을 수 있습니다. p- 값을 계산할 때 p- 값 계산에 더 많은 데이터를 수집하기로 한 결정을 통합해야한다는 사실에 주목하고 싶었습니다. 이는 원래 데이터 수집 전에 의사 결정 규칙 (더 많은 데이터 수집에 대한)을 미리 지정해야 함을 의미합니다.
jsk

@jsk는 p- 값을 조정하는 매우 보수적 인 방법 (예를 들어 Bonferroni 보정, 사후 분석에 적용 가능)에도 보정을 극복 할만큼 충분히 큰 추가 샘플 크기가 있습니다. 요점은 다음과 같습니다. p- 값 조정 방법 (원래 데이터 수집 전에 지정 여부)을 제공하는 경우 관심 그룹의 인구 분포와 중요하지 않은 예비 결과 간의 실제 차이; 중요한 결과를 얻을 수있을만큼 큰 표본 크기를 제공 할 수 있습니다. 따라서 더 많은 데이터가 항상 해답입니다.
Underminer

7

감사. 여기서 명심해야 할 몇 가지 사항이 있습니다.

  1. 따옴표는 외경 일 수 있습니다.
  2. 그것은 / 더 다른 소스에서 더 나은 데이터 또는 데이터 가서 꽤 합리적 (더 정확한 규모, 참조, Underminer의 대답 @를 , 다른 상황이나 제어, 등) 초, 연구 (참조, Glen_b의 코멘트 @ ) . 즉, 원래 데이터와 관련하여 추가 데이터를 분석하지 않습니다. 중요하지 않은 결과를 가진 N = 10이라고 말하면 다른 N = 20 데이터를 수집하여 단독으로 분석 할 수 있습니다 (전체 30 개를 함께 테스트하지 않음) ). 인용문이 묵시적인 것이 아니라면 피셔가 생각했던 것일 수 있습니다.
  3. Fisher의 과학 철학은 본질적으로 Popperian 이었다. 즉, 널 (null)은 이론을 확인하기 위해 반드시 기능적으로 거부 할 필요는 없지만, 거부는 애완 동물 이론이 잘못되었다는 것을 의미하는 이론 자체가 이상적 일 수 있으며, 다시 드로잉 보드로 돌아 가야합니다. 이러한 경우, 제 1 종 오류 인플레이션은 연구원에게 도움이되지 않습니다. (반면에,이 해석은 피셔가 자신이 품위 있지 않은 다툼이 아닌 한이 조언을하는 것에 반대한다.)
  4. 어쨌든, 내가 그 의견을 포함시킨 이유는 그것이 두 접근법의 본질의 차이에 대한 근본적인 무언가를 설명하기 때문이라고 지적 할 가치가 있습니다.

1
p

그건 그렇고, "두 접근 방식의 본질의 차이"에 대해 자세히 설명 할 수 있다면 좋을 것입니다. Fisher의 방법은 좀 더 주관적입니다. 실제로 오류율에 신경 쓰지 않는 것처럼 느껴지지만 뭔가 빠질 수 있습니다.
nalzok

1
@nalzok, 차이점은 원래 스레드에서 논의됩니다. Neyman-Pearson 접근 방식은 연구가 별개의 사건이라고 가정합니다. Fisher의 접근 방식은이 문제가 계속 조사되고 있다고 가정합니다. 다시 : # 2, 격리 된 데이터를 분석하면 p- 해킹이 아닙니다 (여러 연구를 수행하고 원하는 것을 보여 주었던 연구 만 게시하지 않는 한). 다시 : # 3, 아니, 널이 허용되지 않습니다, 당신은 이론을 테스트하는 더 좋은 방법을 찾아야합니다.
gung-Monica Monica 복원

1
pp

1
(+1) 때로는 나무에 집중하고 숲을 그리워한다고 생각합니다. 우리가 어려운 문제를 겪을 때, 더 많은 데이터가 일반적으로 적은 데이터 보다 낫습니다 . 대부분의 경우 데이터가 많을수록 좋지 않습니다. Meng의 통찰력있는 2018 년 논문 " 빅 데이터 (I)의 통계적 낙원과 역설 "에서 알 수 있듯이 알 수없는 수량 을 추정 하려고 할 때 더 나은 데이터 (예 : 잘 선택된 샘플)를 얻는 것이 더 큰 데이터보다 훨씬 유리 합니다. 그러나 더 많은 데이터가 도움이됩니다!
usεr11852는 18:49에 Reinstate Monic

6

우리가 P-hacking이라고하는 것은 유의성 검정을 여러 번 적용하고 유의성 결과 만보고하는 것입니다. 이것이 좋은지 나쁜지는 상황에 따라 다릅니다.

설명하기 위해 귀무 가설과 대립 가설이 아니라 베이지안 용어의 실제 효과에 대해 생각해 봅시다. 관심의 영향이 지속적인 분포에서 비롯된 것으로 생각 되면 귀무 가설이 거짓이라는 것을 알고 있습니다. 그러나 양측 테스트의 경우 양수인지 음수인지 알 수 없습니다. 이러한 관점에서 우리는 양측 검정에 대한 p- 값을 추정이 올바른 방향 (긍정적 또는 부정적 영향)을 갖는다는 증거의 강도를 측정하는 수단으로 생각할 수 있습니다.

p<α

이제 더 많은 데이터를 얻기 위해 계속 돌아 가면 어떤 일이 발생하는지 고려하십시오. 더 많은 데이터를 얻을 때마다 충분한 데이터에 대해 방향이 올바른 조건에 도달 할 확률 만 높아집니다. 따라서이 시나리오에서는 실제로 더 많은 데이터를 가져 와서 실제로 유형 I 오류의 확률을 높이지만 실수로 잘못된 방향을 결론 지을 가능성을 줄입니다.

P- 해킹의보다 일반적인 남용과는 대조적으로 이것을 사용하십시오. 우리는 매우 작을 확률이 높은 100의 효과 크기를 테스트하고 중요한 것만보고합니다. 이 경우 모든 효과가 작 으면 의미를 선언 할 때 방향이 잘못 될 가능성이 거의 50 %라는 점에 유의하십시오.

물론,이 데이터-더블-다운에서 생성 된 p- 값은 여전히 ​​소금 알갱이와 함께 제공되어야합니다. 일반적으로 효과 크기에 대해 더 많은 사람들이 더 많은 데이터를 수집하는 데 아무런 문제가 없어야하지만 다른 방법으로는 악용 될 수 있습니다. 예를 들어, 영리한 PI 대신 한 번에 100 개의 데이터 포인트를 수집의 실현 수도, 그들은 돈을 잔뜩 절약 할 수 는 상당한 아니라면 데이터를 분석하고 다음 (50)를 수집, 첫번째 수집 50 데이터 포인트를 증가 전원을 . 이 시나리오에서는 중요도 선언에 조건부 효과 방향이 잘못 될 가능성이 높아집니다. 100 개의 데이터 요소가 아닌 50 개의 데이터 요소에서 효과의 방향이 잘못 될 가능성이 높기 때문입니다.

마지막으로, 결과가 미미할 때 더 많은 데이터를 얻지 못하는 의미를 고려하십시오 . 그것은 과학을 진전시키지 않는 주제에 대한 더 많은 정보를 수집 하지 않는다는 것을 의미 합니까? 하나의 저전력 연구는 전체 분야를 죽일 것입니다.


1
(+1) 이것은 흥미로운 관점이지만 Fisher의 방법론과 영리한 PI의 차이점에 대해 자세히 설명 할 수 있습니까? 초기 테스트는 중요하지 않기 때문에 둘 다 더 많은 데이터를 수집합니다.
nalzok

또한 "실제로 제 1 종 오류 확률을 높이고 있지만 실수로 잘못된 방향으로 결론을 내릴 가능성도 줄어든다"는 말의 의미를 잘 모르겠습니다. 여기서 귀무 가설은 무엇입니까? IMO 일방적 인 테스트를 수행하는 경우 "잘못된 방향 결론"은 "유형 I 오류"이며, 양면 테스트의 경우 방향을 결정해서는 안됩니다.
nalzok

내가 틀렸다면 정정하지만 양면 테스트가 중요해질 때까지 더 많은 데이터를 수집하는 것이 좋습니다.이 경우 제 1 종 오류율은 100 %가됩니다.
nalzok

1
Fisher가 권장하는 것과 영리한 / 순진한 PI 사이의 주요 차이점은 Fisher가 연구를 마치고 전화를한다는 것입니다. 그의 옵션은 더 많은 데이터를 수집하거나 효과의 방향을 절대 알지 못할 것이라고 결정합니다. 반면에 PI는 데이터를보기도 전에 초기 연구 에 전력을 공급 하기로 결정했습니다 .
Cliff AB

1
@nalzok : 비 근무 시간 동안 살펴 보도록하겠습니다 :)
Cliff AB

1

대안이 선험적 확률 이 작은 경우 , 널을 기각하지 못하는 실험은 널을 더 감소 시켜서 더 많은 연구가 비용 효율성을 떨어 뜨릴 것입니다. 예를 들어, 사전 확률이 .01 이라고 가정하십시오 . 그러면 엔트로피는 .08 비트입니다. 확률이 .001로 감소하면 엔트로피는 이제 .01입니다. 따라서 데이터를 계속 수집하는 것이 비용 효율적이지 않은 경우가 많습니다. 비용 효율적이되는 한 가지 이유는 아는 것이 너무 중요하여 나머지 0.01 비트 엔트로피도 줄일 가치가 있기 때문입니다.

또 다른 이유는 선험적 확률이 실제로 높은 경우 일 것입니다. 귀하의 경우 사전 확률이 50 % 이상이었다 다음 널을 거부하지 못하는 것은 증가 는 더 많은 데이터를 계속 수집하기 위해 비용 대비 효과 만들기, 당신의 엔트로피를. 효과가 있다고 확신 할 수 있지만 어떤 방향으로 알지 못하는 경우를 예로들 수 있습니다.

예를 들어, 당신이 반 지능 요원이고 부서에 두더지가 있고 그것을 두 명의 용의자로 좁히고 어느 것을 결정하기 위해 통계 분석을하고 있다면 통계적으로 중요하지 않은 결과는 수집을 정당화 할 것입니다 더 많은 데이터.


null을 거부하지 않으면 왜 확률이 감소합니까? 증거의 부재는 부재의 증거가 아니지만, 그것이 부재 에 대한 증거인 이유를 이해할 수 없습니다 .
nalzok

@nalzok 나는 "대안이 작은 선험적 확률을 가졌다면, 널을 기각하지 못하는 실험은 그것을 더 감소시킬 것이다" "널"은 "it"에 가장 가까운 명사이지만, 널은 수량이 아니며, 따라서 감소시킬 수 없으며 "it"에 대한 유효한 선행자가 아닙니다. 또한 "추가"는 "it"이 이미 작은 것을 나타냅니다. 이러한 사실은 대안의 "사소한 확률"인 "it"의 선행을 가리킨다.
Acccumulation
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.