"과학자들이 통계적 유의성에 반하여 올라간다"는 것은 무엇을 의미합니까? (자연 속의 주석)


61

자연 과학자 의 논평 제목은 다음 과 같이 통계적 중요성에 반 합니다.

Valentin Amrhein, Sander Greenland, Blake McShane 및 800여 명의 서명자들은 과장된 주장의 종식과 중요한 영향의 해소를 요구합니다.

나중에 다음과 같은 문장이 포함됩니다.

다시, 우리는 P 값, 신뢰 구간 또는 기타 통계적 측정에 대한 금지를 옹호하지 않고 단지 범주 적으로 취급해서는 안됩니다. 여기에는 통계적으로 유의미한 이분법뿐만 아니라 Bayes 요인과 같은 다른 통계적 측정에 따른 분류가 포함됩니다.

아래 이미지는 두 가지 연구에 동의하지 않는다고 말하지 않는다고 생각합니다. 하나는 "배제"하고 다른 하나는 효과가 없기 때문입니다. 그러나 기사는 내가 이해할 수있는 것보다 훨씬 깊이있는 것으로 보입니다.

마지막에는 4 가지 요점이 요약되어 있습니다. 통계를 쓰지 않고 읽는 사람들에게 더 간단한 용어로 이것을 요약 할 수 있습니까?

호환성 간격에 대해 이야기 할 때는 네 가지 사항을 명심하십시오.

  • 첫째, 구간이 가정에 따라 데이터와 가장 호환 가능한 값을 제공한다고해서 외부의 값이 호환되지 않는다는 의미는 아닙니다. 그들은 호환성이 떨어집니다 ...

  • 둘째, 가정에 따라 내부의 모든 값이 데이터와 동일하게 호환되는 것은 아닙니다 ...

  • 셋째, 0.05 임계 값과 같이 간격을 계산하는 데 사용되는 기본 95 %는 그 자체로 임의의 규칙입니다 ...

  • 마지막으로 가장 중요한 것은 겸손해야합니다. 호환성 평가는 구간 계산에 사용 된 통계적 가정의 정확성에 달려 있습니다.


자연 : 과학자들이 통계적 중요성에 대항하여 일어남


13
기본적으로 그들은 더 많은 오 탐지로 연구 논문을 작성하려고합니다!
데이비드

12
Gelman의 블로그 ( statmodeling.stat.columbia.edu/2019/03/20/…) 에 대한 토론을 참조하십시오 . 분명히이 기사는 몇 가지 타당한 점을 제기하지만 Gelman이 인용 한 것처럼이 기사 에 대해 Ioannidis가 제기 한 의견을 참조하십시오 .
amoeba는

3
그러나 이것은 새로운 개념이 아닙니다. 메타 분석은 50 년 동안 개선 된 부분이었으며 Cochrane은 지난 25 년 동안 의료 / 의료 연구 (목표 및 결과를 표준화하기가 더 쉬운)의 메타 분석을 수행해 왔습니다.
Graham

4
근본적으로 문제는 다차원 문제인 "불확실성"을 단일 숫자로 줄이기 위해 노력하고 있습니다.
MaxW

4
기본적으로 사람들 이 찾을 때 "X와 Y는 관련이 없습니다"대신 "X와 Y 사이의 연관성에 대한 증거를 찾지 못했다"고 언급 한 경우이 기사는 존재하지 않을 것입니다. p>α
Firebug

답변:


65

내가 알 수있는 한 처음 세 지점은 단일 인수에 대한 변형입니다.

과학자들은 불확실성 측정 (예 : ) 을 다음과 같은 확률 분포로 취급 합니다.12±1

균일 한 확률 분포

때 실제로, 그들은 같이 훨씬 더 가능성 : 여기에 이미지 설명을 입력하십시오

전 화학자로서 나는 수학이 아닌 배경을 가진 많은 과학자들 (주로 비 물리 화학자 및 생물 학자들)이 불확실성 (또는 오류라고 부르는)이 어떻게 작동해야하는지 실제로 이해하지 못한다는 것을 확인할 수 있습니다. 그들은 언더 플로 물리학에서 그것들을 사용해야했던 시간을 회상하며, 여러 가지 다른 측정을 통해 복합 오차를 계산해야 할 수도 있지만 실제로는 결코 이해 하지 못했습니다 . 나도 이것에 대해 유죄이며 모든 측정 간격 내에 있어야 한다고 가정 했다 . 최근 (그리고 학계 밖에서) 오류 측정이 일반적으로 절대 한계가 아닌 특정 표준 편차를 참조한다는 것을 알았습니다.±

기사에서 번호가 매겨진 요점을 분석하려면 다음을 수행하십시오.

  1. 실제 외부 (가우시안) 확률이 0이 아니기 때문에 CI 외부에서의 측정은 여전히 ​​발생할 가능성이 있습니다. 이후의 값 이 실제로 하나의 SD를 나타내는 경우 데이터 포인트가 32 %의 확률로 여전히 벗어날 수 있습니다.±

  2. 분포가 균일하지 않습니다 (첫 번째 그래프에서와 같이 평평한 상태). 가장자리보다 중간에 값을 얻을 가능성이 더 큽니다. 마치 하나의 주사위가 아닌 많은 주사위를 굴리는 것과 같습니다.

  3. 95 %는 임의의 컷오프이며 거의 두 표준 편차와 정확히 일치합니다.

  4. 이 점은 일반적으로 학문적 정직성에 대한 의견입니다. 내가 박사 학위 과정에서 얻은 사실은 과학은 추상적 인 힘이 아니라 과학을 시도하는 사람들의 누적 된 노력이라는 것입니다. 이 우주에 대해 새로운 것을 발견하려고하는 사람들이 있지만, 동시에 또한 아이들이 공급 불행하게도 현대에 어떤 형태의 의미 일자리, 계속 유지하기 위해 노력하고있다 게시하거나 멸망하는 놀이입니다. 실제로 과학자들은 흥미롭지 않은 결과가 출판물로 나오지 않기 때문에 진실 하고 흥미로운 발견에 의존합니다 .

와 같은 임의의 임계 값 은 종종 통계를 완전히 이해하지 못하고 결과에 합격 / 불합격 스탬프가 필요한 사람들 사이에서 자주 지속될 수 있습니다. 따라서 사람들은 때때로 될 때까지 테스트를 다시 실행하는 것에 대해 반 농담으로 이야기 합니다. 특히 Ph.D / grant / employment가 결과에 올라 타고 있다면, 이러한 한계 결과가 원하는 이 분석에 나타날 때까지 흔들리면서 매우 유혹적 일 수 있습니다 .p<0.05p<0.05p=0.0498

이러한 관행은 과학 전체에 해를 끼칠 수 있습니다. 특히 과학적으로 광범위하게 수행되는 경우 모두 자연의 눈에 들어있는 숫자를 추구하여 의미가 없습니다. 실제로이 부분은 과학자들이 정직이 해를 입더라도 데이터와 작업에 대해 정직하도록 권고합니다.


26
"... 게시 또는 멸망에 +1 . 실제로 과학자들은 흥미롭지 않은 결과가 출판으로 이어지지 않기 때문에 사실과 흥미로운 발견에 의존합니다." 이 "게시하거나 멸망"방법에 대한 논의는 학계 전반에 걸쳐 오류 / 바이어스를 합성에 이르게 것을 다시 년 나온 재미있는 종이가 발생했습니다 : 대부분의 게시 연구 결과가 거짓 이유 (IOANNIDIS, 2005)
J. 테일러

4
“실제 (가우시안) 불확실성”에 동의하지 않습니다. – 가우시안은 또 다른 단순화입니다. Central Limit Theorem 덕분에 하드 한계 모델보다 다소 정당화되지만 실제 분포는 일반적으로 여전히 다릅니다.
왼쪽

1
@leftaroundabout 실제 분포는 여전히 다를 수 있지만 값이 물리적으로 불가능하지 않으면 확률 적으로 수학적으로 0이 아닙니다.
gerrit

3
@leftaroundabout 불확실성이 가우시안 일 가능성높다고 말하는 것은 본질적으로 단순화 된 것이 아니다. 그것은 다른지지 자료가 없을 때 CLT에 의해 가장 좋은 사전으로 정당화되는 이전 분포를 설명하지만, 분포에 대한 불확실성을 표현함으로써 분포가 가우시안 일 수 없다는 인정이 이미 존재한다.

7
@inisfree 당신은 매우, 매우 착각입니다. 화학 및 생물학과 같은 많은 과학 분야는 기본 산술 외에 거의 제로 수학을 사용합니다. 수학적으로 문맹이 거의없는 훌륭한 과학자들이 있습니다. 그리고 나는 그들 중 몇 명을 만났습니다.
Ingolifs

19

기사와 당신이 포함하는 그림의 대부분은 매우 간단한 지적입니다.

효과에 대한 증거 부족은 존재하지 않는다는 증거가 아닙니다.

예를 들어

"우리의 연구에서, 시안화물을 투여 한 마우스는 통계적으로 상당히 높은 속도로 죽지 않았다"는 "시안화물이 마우스 사망에 영향을 미치지 않는다"는 주장의 증거는 아니다.

두 마리의 마우스에 시안화물을 투여하고 그중 하나가 죽었다고 가정 해 봅시다. 2 마리 마우스의 대조군에서, 어느 것도 죽지 않았다. 표본 크기가 너무 작기 때문에이 결과는 통계적으로 유의하지 않습니다 ( ). 따라서이 실험은 시안화물이 마우스 수명에 통계적으로 유의미한 영향을 나타내지 않습니다. 시안화물이 마우스에 영향을 미치지 않는다고 결론을 내릴까요? 당연히 아니.p>0.05

그러나 이것은 과학자들이 과학자들이 일상적으로 저지르고 있다고 주장하는 실수입니다.

예를 들어, 그림에서 빨간색 선은 아주 적은 마우스에 대한 연구에서 발생할 수있는 반면, 파란색 선은 정확히 동일한 연구에서 발생할 수 있지만 많은 마우스에서 발생할 수 있습니다.

저자들은 효과 크기와 p- 값을 사용하는 대신, 연구 결과와 거의 호환되는 가능성의 범위를 설명 할 것을 제안합니다. 우리의 두 마우스 실험에서, 우리의 발견은 시안화물이 매우 유독하고 전혀 유독하지 않음과 호환된다는 것을 써야 할 것입니다. 100- 마우스 실험에서 치명적 추정치가 인 치명적인 신뢰 구간 범위를 찾을 수 있습니다.[60%,70%]65%. 그런 다음 우리의 결과는이 용량이 마우스의 65 %를 죽인다는 가정과 가장 호환 될 수 있지만 우리의 결과는 60 또는 70의 낮은 백분율과 어느 정도 호환 될 수 있으며 우리의 결과는 덜 호환 될 것입니다 그 범위 밖의 진실로. (이 수치를 계산하기 위해 어떤 통계적 가정을하는지 설명해야합니다.)


4
나는 "증거의 부재는 부재의 증거가 아니다"라는 담요 진술에 동의하지 않습니다. 검정력 계산을 통해 특정 표본 크기에서 특정 크기의 효과가 중요하다고 간주 될 가능성을 결정할 수 있습니다. 큰 효과 크기는 0과 크게 다른 것으로 간주하기 위해 더 적은 데이터가 필요하지만 작은 효과는 더 큰 샘플 크기가 필요합니다. 연구가 제대로 진행되고 여전히 중대한 영향이 나타나지 않는다면 그 효과가 존재하지 않는다고 합리적으로 결론을 내릴 수 있습니다. 데이터가 충분하면 유의하지 않은 결과가 실제로 효과가 없음을 나타낼 수 있습니다.
핵 왕

1
@NuclearWang True, 그러나 전력 분석이 사전에 수행되고 올바른 가정과 올바른 해석으로 수행 된 경우에만 (즉, 귀하의 전력은 예측 한 효과 크기규모와 만 관련 이 있습니다. "80 % 검정력 "은 제로 효과 를 올바르게 감지 할 확률이 80 %라는 의미는 아닙니다 . 또한 내 경험상 "비 의도적"을 사용하여 "효과 없음"을 의미하는 것은 종종 부차적 인 결과 나 드문 사건에 적용되는데,이 연구는 어쨌든 (적절하게) 힘이 없습니다. 마지막으로 베타는 일반적으로 >> 알파입니다.
Bryan Krause

9
@NuclearWang, 나는 누군가가 "증거의 부재는 결코 부재의 증거가 아니다"라고 주장하지 않는다고 생각합니다. 나는 그들이 그렇게 자동적으로 해석되어서는 안된다고 주장하고 있다고 생각합니다. 이것이 사람들이 만드는 실수라고 생각합니다.
usul

사람들이 동등성 또는 무언가에 대한 테스트를 훈련받지 않은 것과 거의 같습니다 .
Alexis

19

노력하겠습니다.

  1. 신뢰 구간 (호환 구간의 이름을 변경 함)은 데이터와 가장 호환되는 매개 변수의 값을 보여줍니다. 그러나 이것이 구간 밖의 값이 데이터와 절대적으로 호환되지 않는다는 의미는 아닙니다.
  2. 신뢰도 (호환성) 구간의 중간 근처에있는 값은 구간 끝 근처의 값보다 데이터와 더 호환됩니다.
  3. 95 %는 컨벤션 일뿐입니다. 90 % 또는 99 % 또는 모든 % 간격을 계산할 수 있습니다.
  4. 신뢰도 / 호환성 구간은 사전 설정된 계획에 따라 분석을 수행하고 데이터가 분석 방법의 가정을 준수하는 경우 실험이 올바르게 수행 된 경우에만 유용합니다. 불량 데이터를 잘못 분석 한 경우 호환성 간격이 의미가 없거나 도움이되지 않습니다.

10

위대한 XKCD는 얼마 전에이 만화를 만들어 문제를 설명했습니다. 결과가 가설 을 입증 하는 것으로 하게 처리되고 너무 자주 발생하는 경우 20 개의 가설 중 1 개는 실제로 거짓이됩니다. 마찬가지로 가 가설을 반증 하는 것으로 간주 되면 20 개의 실제 가설 중 1 잘못 거부됩니다. P-값이 가설이 참인지 거짓인지를 알려하지 않는, 그들은 가설인지를 알려 아마 참 또는 거짓. 참조 된 기사가 너무 일반적인 나이브 한 해석에 반발하고있는 것 같습니다.P>0.05P < 0.05P<0.05


8
(-1) P-값은 가설인지 여부를 표시하지 않습니다 아마 참 또는 거짓. 이를 위해서는 사전 배포가 필요합니다. 예를 들어이 xkcd를 참조하십시오 . 이 혼동을 야기하는 문제의 손짓 은 많은 가설에 대해 유사한 사전 이 있으면 p- 값이 확률에 비례 한다는 사실입니다. 그러나 데이터를보기 전에 일부 가설은 다른 것보다 훨씬 더 가능성이 높습니다!
Cliff AB

3
이 효과는 할인되어서는 안되는 것이지만 참조 기사의 중요한 요지는 아닙니다.
RM

6

TL; DR은 - 그것은 일이 관련이 있음을 증명하기 위해 근본적으로 불가능하다; 통계는 사물 관련된시기를 표시하는 데만 사용할 수 있습니다. 이 잘 정립 된 사실에도 불구하고 사람들은 종종 통계적 의미의 부족이 잘못된 관계를 암시하는 것으로 잘못 해석합니다.


올바른 암호화 방법은 공격자가 알 수있는 한 보호 된 메시지와 통계적 관계를 맺지 않는 암호문을 생성해야합니다. 공격자 가 어떤 종류의 관계를 파악할 수 있으면 암호문 ( Bad Thing TM) 만보고 보호 된 메시지에 대한 정보를 얻을 수 있습니다 .

그러나 암호문과 해당 평문 100 %가 서로를 결정합니다. 아무리 노력해도 세계 최고의 수학자들이 의미있는 관계를 찾을 수 없더라도 관계가 단지 거기에있는 것이 아니라 완전히 그리고 완전히 결정적이라는 것을 분명히 알고 있습니다. 이 결정론은 관계를 찾는 것이 불가능하다는 것을 알고있을 때도 존재할 수 있습니다 .

그럼에도 불구하고 우리는 여전히 다음과 같은 일을 할 사람들을 얻습니다.

  1. 그들이 " 반증 " 하고 싶은 관계를 선택하십시오 .

  2. 의심되는 관계를 발견하기에 부적합한 것에 대한 연구를하십시오.

  3. 통계적으로 유의미한 관계가 없다고보고하십시오.

  4. 이것을 관계 부족으로 돌리십시오.

이것은 미디어가 어떤 관계의 존재를 반증하는 것으로 (거짓)보고 할 모든 종류의 " 과학적 연구 "로 이어진다 .

이와 관련하여 자신의 연구를 디자인하려면 여러 가지 방법이 있습니다.

  1. 게으른 연구 :
    지금까지 가장 쉬운 방법은 믿을 수 없을 정도로 게으른 것입니다. 그것은 질문에 링크 된 그림과 같습니다 : . 쉽게 얻을 수있는 간단한 샘플 크기만으로도 많은 노이즈와 다양한 게으른 것들을 허용합니다. 사실, 너무 느리다면 모든 데이터를 수집 하면 이미 완료된 것입니다!

    'Non-significant' study(high P value)"

  2. 게으른 분석 :
    바보 같은 이유로, 어떤 사람들은 생각 피어슨 상관 계수 의 "의미 상관 관계 ". 매우 제한된 의미에서 사실입니다. 그러나 있습니다. 이것은 " 선형 "관계가 없을 수 있지만 분명히 더 복잡한 관계가있을 수 있습니다. 그리고 그것은 "일 필요는 없습니다 암호화 "-Level 단지, 오히려 " 그것은 실제로 구불 구불 한 라인의 조금이다 "또는 " 이 상관 관계가있어 "또는 뭐든간에.0

  3. 게으른 대답 :
    위의 정신에서, 나는 여기서 멈출 것입니다. 게으르다!

그러나 진지 하게이 기사 는 다음 과 같이 요약합니다.

무엇을 멈춰야하는지 명확히하자 : P 값이 0.05와 같은 임계 값보다 크거나 신뢰 구간이 0을 포함하기 때문에 '차이'또는 '연관 없음'이 있다고 결론을 내리지 않아야합니다.


+1은 당신이 쓰는 것이 진실하고 생각을 자극하는 원인이됩니다. 그러나 나의 겸손한 의견 으로는 두 가지 양이 특정 가정 하에서 합리적으로 상관되지 않는다는 것을 증명할 수 있습니다 . 예를 들어, 그들에 대한 특정 분포를 가정하여 시작해야합니다. 그러나 이것은 물리 법칙 또는 통계에 근거 할 수 있습니다 (예 : 컨테이너 내 가스 분자의 속도는 가우시안 등으로 예상됩니다)
5

3
@ntg 그래, 이런 것들을 어떻게 말해야할지 모르겠 기 때문에 많이 빼 버렸다. 일반적으로 특정 관계가 존재하지 않음을 일반적으로 증명할 수는 있지만 어떤 관계가 존재 한다는 것을 반증 할 수는 없습니다. 일종의 두 데이터 계열이 서로 관련이 없다는 것을 알 수는 없지만 간단한 선형 함수에 의해 신뢰할 수있는 것으로 보이지는 않습니다.
Nat

1
-1 "tl; dr- 사물이 관련이 없음을 증명하는 것은 근본적으로 불가능합니다." 동등성 테스트 는 임의의 효과 크기 내에서 효과가 없다는 증거를 제공합니다.
Alexis

2
@Alexis 나는 동등성 테스트를 오해한다고 생각한다. 동등성 테스트를 사용하여 특정 관계 유지 (예 : 선형 관계)가 없음을 증명할 수 있지만 관계가 없다는 증거는 없습니다.
Nat

1
@Alexis Statistical Inference 는 일부 모델의 맥락에서 특정 효과 크기보다 큰 효과가 없다는 증거를 많이 제공 할 수 있습니다 . 아마도 모델을 항상 알고 있다고 가정하고 있습니까?
Nat

4

문제에 대한 교훈적인 소개를 위해 Alex Reinhart는 온라인에서 완전히 사용할 수있는 책을 작성했으며 No Starch Press에서 편집했습니다 (자세한 내용 포함) : https://www.statisticsdonewrong.com

정교한 수학없이 문제의 근본을 설명하고 시뮬레이션 된 데이터 세트의 예제가 포함 된 특정 장이 있습니다.

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

두 번째 링크에서 그래픽 예제는 p- 값 문제를 보여줍니다. P- 값은 종종 데이터 집합 간의 통계적 차이를 나타내는 단일 지표로 사용되지만 자체적으로는 충분하지 않습니다.

더 자세한 답변을 편집하십시오 .

많은 경우, 연구는 물리적 측정 (특정 실험 동안 촉진제의 입자 수) 또는 정량적 지표 (약물 테스트 중 특정 증상이 나타나는 환자 수)와 같은 정확한 유형의 데이터를 재생하는 것을 목표로합니다. 이 상황에서 많은 요인들이 인적 오류 또는 시스템 변형 (사람들이 같은 약물에 다르게 반응하는)과 같은 측정 과정을 방해 할 수 있습니다. 이것이 가능한 경우 실험이 종종 수백 번 수행되고 이상적으로 수천 명의 환자 집단에서 약물 검사가 수행되는 이유입니다.

그런 다음 통계, 평균, 표준 편차 등을 사용하여 데이터 세트를 가장 간단한 값으로 줄입니다. 평균을 통해 모델을 비교할 때의 문제는 측정 된 값이 실제 값의 지표 일 뿐이며 개별 측정의 수와 정밀도에 따라 통계적으로 변한다는 것입니다. 우리는 어떤 측정 값이 같을 수도 있고 어떤 측정 값이 아닌지 확실하게 추측 할 수있는 방법을 가지고 있습니다. 일반적으로 임계 값은 20 개의 값 중 하나가 잘못되어 두 값이 다르다고 잘못 판단 할 경우 "통계적으로 다른"값 ( 의 의미)으로 간주되며 그렇지 않으면 결론을 내릴 수 없습니다.P<0.05

이것은 두 개의 동일한 측정 값이 동일한 평균값을 제공하지만 연구원의 결론이 표본의 크기에 따라 다른 Nature의 기사에 설명 된 이상한 결론으로 ​​이어집니다. 이것은 통계 어휘와 습관의 다른 역학이 과학에서 점점 더 중요 해지고 있습니다. 문제의 다른 측면은 사람들이 통계 도구를 사용하는 것을 잊고 표본의 통계적 힘을 제대로 검증하지 않고 효과에 대해 결론을 내린다는 것입니다.

다른 예를 들어, 최근 사회 및 생명 과학은 유명한 연구의 적절한 통계적 힘을 확인하지 않은 사람들이 많은 영향을 미쳤 기 때문에 실제 복제 위기를 겪고 있습니다 (다른 사람은 데이터를 위조했습니다) 그러나 이것은 또 다른 문제입니다).


3
이 답변은 링크 일뿐만 아니라 " 링크 전용 답변 " 의 모든 두드러진 특징을 가지고 있습니다. 이 답변을 개선하려면 답변 자체에 핵심 사항을 포함하십시오. 이상적으로는 링크의 내용이 사라져도 답변으로 유용합니다.
RM

2
Veritasium은 p- 값과 기본 요율 오류 (링크에 언급 됨)에 대해 베이 즈 트랩 이라는 비디오를 게시했습니다 .
jjmontes

2
죄송합니다. 최대한 빨리 답변을 개선하고 개발하려고 노력하겠습니다. 저의 생각은 호기심 많은 독자들에게 유용한 자료를 제공하는 것이 었습니다.
G.Clavier

1
@ G.Clavier와 자칭 통계 초보자와 호기심 많은 독자들이 감사합니다!
uhoh

1
@uhoh 다행입니다. :)
G.Clavier

4

나에게 가장 중요한 부분은 다음과 같습니다.

... [우리] 저자는 P 값이 크거나 간격이 넓은 경우에도 해당 포인트의 한계에 대해 논의 할 때 포인트 추정치에 대해 논의 할 것을 촉구합니다.

다시 말해, 추정 (중심과 신뢰 구간)을 논의하는 데 더 중점을두고 "가설 검정"에 대해서는 더 강조합니다.

실제로 어떻게 작동합니까? 예를 들어 "우리는 95 % CI 범위가 0.97에서 1.33 인 위험률 1.20을 측정"하는 등 효과 크기를 측정하는 데 많은 연구가 필요합니다. 이것은 연구의 적절한 요약입니다. 가장 가능한 효과 크기와 측정의 불확실성을 즉시 볼 수 있습니다. 이 요약을 사용하면이 연구를 다른 연구와 빠르게 비교할 수 있으며 모든 결과를 가중 평균으로 결합 할 수 있습니다.

불행하게도, 그러한 연구는 종종 "위험 비율의 통계적으로 유의미한 증가를 발견하지 못했습니다"로 요약됩니다. 이것은 위의 연구의 유효한 결론입니다. 그러나 이러한 종류의 요약을 사용하여 연구를 쉽게 비교할 수 없기 때문에 연구에 대한 적절한 요약 이 아닙니다 . 어떤 연구가 가장 정확한 측정인지 알지 못하며 메타 연구 결과가 무엇인지 직감 할 수 없습니다. 그리고 연구에서 신뢰 구간이 너무 커서 코끼리를 숨길 수있는 "유의하지 않은 위험 비율 증가"라고 주장 할 때 즉시 발견하지 못합니다.


그것은 귀무 가설에 달려 있습니다. 예를 들어, 거부 하면 임의로 작은 보다 큰 효과가 없다는 증거가 제공 됩니다. H0:|θ|ΔΔ
Alexis

1
그렇습니다. 그런데 왜 그런 가설에 대해 이야기하는 것이 귀찮습니까? 측정 된 효과 크기 를 기술 한 다음 가장 좋은 / 최악의 사례 결과가 무엇인지 논의 할 수 있습니다. 예를 들어 proton과 antiproton 간의 질량 대 전하 차이를 측정 할 때 물리학에서 일반적으로 수행되는 방식 입니다. 저자는 귀무 가설을 공식화하기로 선택했을 수도 있지만 (예를 들어 절대 차이가 일부 보다 크다는 가정하에 ) 테스트를 계속할 수는 있지만 그러한 논의에는 부가 가치가 거의 없습니다. θ±δθΔ
Martin JH

3

그것은 그 "의미"이다 통계 학자 , 과학자뿐, 상승 및 "중요성"과의 느슨한 사용에 반대하는 값. The American Statistician의 최신호는 전적으로이 문제에 전념하고 있습니다. Wasserman, Schirm 및 Lazar의 리드 편집을 참조하십시오. P


링크 주셔서 감사합니다! 눈을 뜨는 사람입니다. 나는 이것에 대해 너무 많은 생각과 토론이 있다는 것을 몰랐다.
uhoh

2

여러 가지 이유로 p- 값 이 실제로 문제가 된 것은 사실입니다.

그러나 약점에도 불구하고 단순성 및 직관적 이론과 같은 중요한 이점이 있습니다. 따라서 전반적으로 나는 Comment in Nature에 동의하지만 통계적 유의성을 완전히 버리지 않고보다 균형 잡힌 솔루션이 필요하다고 생각합니다. 몇 가지 옵션이 있습니다.

1. " 새로운 발견의 주장에 대해 통계적 유의성에 대한 기본 P- 값 임계 값을 0.05에서 0.005로 변경". 내 관점에서, 벤자민 등은 증거의 높은 표준을 채택에 대해 아주 잘 가장 강력한 인수를 해결.

2. 2 세대 p- 값 채택 . 이것들은 고전적인 p- 값에 영향을 미치는 대부분의 문제에 대한 합리적인 해결책 인 것 같습니다 . 꽃 등이 말하는 것처럼 여기 , 2 세대 P-값은 "통계 분석의 엄격 성, 재현성, 투명성을 향상시킬 수 있습니다."도움을 줄 수

3. p- 값 을 "관찰 된 관계 또는 주장이 사실 인 확실성의 정량적 척도-"신뢰 지수 ""로 재정의 . 이는 분석 목표를 중요성 달성에서 이러한 신뢰도를 적절하게 추정하는 데까지 변화시키는 데 도움이 될 수 있습니다.

중요한 것은 " 통계적 유의성 또는 "신뢰성 " (무엇이든) 에 대한 임계 값에 도달하지 않은 결과 는 여전히 중요 할 수 있으며 엄격한 방법으로 중요한 연구 문제를 다루는 경우 주요 저널에 게재 할 가치가 있습니다."

나는 그것이 p- 값 의 오용 뒤에있는 주요 저널에 의해 p- 값 에 대한 집착을 완화시키는 데 도움이 될 수 있다고 생각 합니다 .


답변 주셔서 감사합니다. 도움이됩니다. Blume et al.을 읽는 데 시간을 할애합니다. 에 대해 2 세대 P-값 , 꽤 읽을 것 같다.
uhoh

1
@uhoh, 내 답변이 귀하의 질문에 도움이되어 기쁩니다.
Krantz

1

언급되지 않은 한 가지 오류는 실제 물리적 측정이 아니라 통계적 추정치라는 것입니다. 사용 가능한 데이터와 처리 방법에 크게 의존합니다. 가능한 모든 이벤트를 측정 한 경우에만 정확한 오류 값과 중요도를 제공 할 수 있습니다. 이것은 일반적으로 그렇지 않습니다.

따라서 모든 P- 값의 오차 또는 유의성에 대한 모든 추정치는 정의상 부정확하며 기본 연구를 설명하는 것으로 신뢰해서는 안됩니다 (현상은 물론)! – 정확하게. 실제로, 표현되는 내용, 오류 추정 방법 및 데이터 품질 관리를 위해 수행 된 작업에 대한 지식없이 결과에 대한 어떠한 것도 전달해서는 안됩니다. 예를 들어 추정 오차를 줄이는 한 가지 방법은 특이 치를 제거하는 것입니다. 이 제거가 통계적으로 수행되는 경우 오차에 포함되어야 할 실제 측정치가 아닌 특이 치가 실제 오차임을 어떻게 알 수 있습니까? 감소 된 오류가 결과의 중요성을 어떻게 향상시킬 수 있습니까? 추정치 근처의 잘못된 측정은 어떻습니까? 그들은 향상 오류는 통계적 유의성에 영향을 줄 수 있지만 잘못된 결론으로 ​​이어질 수 있습니다!

그 문제에 대해, 나는 물리적 모델링을 수행하고 3- 시그마 오류가 완전히 물리적이지 않은 모델을 직접 만들었습니다. 즉, 통계적으로 천 개에 약 1 건의 사건이 발생합니다 (물론 그보다 더 자주 있지만 난탈합니다). 필자의 필드에서 3 간격 오류의 크기는 1 cm로 추정 될 수있는 가장 좋은 추정치가 미터로 바뀌는 것과 거의 같습니다. 그러나 이것은 실제로 내 분야의 실증적 데이터에서 계산 된 통계적 +/- 간격을 제공 할 때 허용되는 결과입니다. 물론, 불확실성 간격의 좁음이 존중되지만 명목상의 오차 간격이 더 클 때도 종종 최선의 추정값이 더 유용한 결과입니다.

부수적으로, 나는 한때 개인적으로 천 이상인 사람들 중 하나에 대한 책임이있었습니다. 측정해야 할 이벤트가 발생했을 때 계측기를 교정하는 중이었습니다. 아아, 그 데이터 포인트는 정확히 100 배 이상치 중 하나 일 것이므로 어떤 의미에서, 그들은 일어나고 모델링 오류에 포함됩니다!


"가능한 모든 이벤트를 측정 한 경우에만 정확한 측정을 제공 할 수 있습니다." 흠. 정확도가 절망적인가? 또한 관련이 없습니까? 정확도와 바이어스의 차이를 확장하십시오. 부정확 한 추정치가 치우 치거나 편향되지 않았습니까? 그들이 편견이 없다면, 조금 유용하지 않습니까? "예를 들어, 오류를 줄이는 한 가지 방법은 특이 치를 제거하는 것입니다." 흠. 그러면 샘플 분산이 줄어들지 만 "오류"가 발생합니까? "... 최소 추정치의 값은 공칭 오차 구간이 더 클 때에도 더 유용한 결과입니다."나는 좋은 실험이 나쁜 실험보다 낫다는 것을 부정하지 않습니다.
피터 레오폴드

귀하의 의견에 따라 텍스트를 약간 수정했습니다. 내가 의미하는 바는 가능한 모든 개별 테스트를 사용할 수 없다면 통계 오차 측정은 항상 추정치라는 것입니다. 예를 들어 정해진 수의 사람들을 폴링하는 경우를 제외하고는 거의 발생하지 않습니다 (큰 군중이나 일반 인구의 샘플이 아님).
Geenimetsuri

1
저는 통계 학자보다는 통계를 사용하는 실무자입니다. p 값의 기본 문제는 자신이 무엇을 잘 모르는 많은 사람들이 실질적인 중요성과 혼동한다는 것입니다. 따라서 경사가 큰지 여부에 관계없이 p 값을 사용하여 어떤 경사가 중요한지를 결정하라는 요청을 받았습니다. 비슷한 문제가 변수의 상대적인 영향을 결정하는 데 사용하는 것입니다 (나에게 중요하지만 회귀 문헌에서는 놀라 울 정도로 작은 관심을받습니다).
user54285
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.