년 빈도주의 추론 , 우리는 경우 일이 일어 났을 것 빈도를 결정하려면 주어진 확률 과정이 반복적으로 실현되었다. 이것이 p- 값, 신뢰 구간 등의 이론에 대한 시작점입니다. 그러나 많은 응용 프로젝트에서 "주어진"프로세스는 실제로 제공되지 않으며 통계학자는이를 지정하고 모델링하는 작업을 적어도 수행해야합니다. 이 경우와 마찬가지로 이것은 놀랍게도 모호한 문제 일 수 있습니다.
데이터 생성 프로세스 모델링
주어진 정보를 바탕으로 가장 좋은 후보자는 다음과 같습니다.
- 100V 미터가 100V를 읽는 경우 엔지니어 는 작동중인 경우 1000V 미터로 다시 측정 합니다. 그렇지 않으면 그는 단순히 100V를 표시하고 계속 진행합니다.
그러나 이것이 엔지니어에게는 불공평하지 않습니까? 자신이 기술자가 아니라 엔지니어 인 경우 첫 번째 미터가 100V를 읽을 때 왜 재 측정해야하는지 이해할 것입니다. 미터가 범위의 상한에서 포화 되어 더 이상 신뢰할 수 없기 때문입니다. 아마도 엔지니어가 실제로 할 일은
- 100V 미터에 100이 표시되면 엔지니어 는 작동중인 경우 1000V 미터로 다시 측정 합니다. 그렇지 않으면 그는 단순히 100V를 표시하고 더하기 기호를 추가하여 포화 측정을 나타내며 계속 진행합니다.
이 두 프로세스는 모두 우리가 보유한 데이터와 일치하지만 프로세스가 다르며 신뢰 구간이 다릅니다. 프로세스 2는 통계 전문가로서 선호하는 프로세스입니다. 전압이 종종 100V를 훨씬 초과하는 경우 프로세스 1은 데이터가 알지 못하고 검열되기 때문에 측정이 때때로 과소 평가되는 치명적인 오류 모드가 있습니다. 이에 따라 신뢰 구간이 넓어집니다. 엔지니어에게 1000V 미터가 작동하지 않을 때 알려주도록 요청하면이를 완화 할 수 있지만 이는 실제로 데이터가 프로세스 2를 준수하도록하는 또 다른 방법 일뿐입니다.
말이 이미 헛간을 떠났고 측정이 언제 검열되지 않는지를 결정할 수 없다면 1000V 미터가 작동하지 않는 시간을 데이터에서 추론 할 수 있습니다. 프로세스에 추론 규칙을 도입하면 1과 2가 아닌 새로운 프로세스 1.5를 효과적으로 만들 수 있습니다. 추론 규칙이 작동하는 경우도 있고 그렇지 않은 경우도 있으므로 프로세스 1.5의 신뢰 구간은 프로세스 1 및 프로세스에 비해 중간 크기입니다. 2.
이론적으로, 세 가지 다른 대표적 확률 론적 과정과 관련된 세 가지 다른 신뢰 구간을 갖는 단일 통계량에 대해서는 잘못되거나 의심의 여지가 없습니다. 실제로 통계 소비자는 거의 세 가지 신뢰 구간을 원하지 않습니다. 그들은 실험이 여러 번 반복되었을 때 실제로 일어난 일을 기반으로 한 것을 원합니다. 따라서 일반적으로 적용된 통계학자는 프로젝트 중에 획득 한 도메인 지식을 고려하여 교육 된 추측을하고 추측 한 프로세스와 관련된 신뢰 구간을 제시합니다. 또는 고객과 협력하여 프로세스를 공식화하므로 향후 추측 할 필요가 없습니다.
새로운 정보에 응답하는 방법
이야기에서 통계학 자의 주장에도 불구하고, 잦은 추론은 확률 론적 과정을 생성하는 것이 원래 상상했던 것이 아니라는 새로운 정보를 얻을 때 측정을 반복 할 것을 요구하지 않습니다. 그러나 프로세스가 반복 될 경우 모든 반복이 신뢰 구간에서 가정 한 모델 프로세스와 일치하는지 확인해야합니다. 프로세스를 변경하거나 모델을 변경하여이를 수행 할 수 있습니다.
프로세스를 변경하면 해당 프로세스와 일치하지 않게 수집 된 과거 데이터를 폐기해야 할 수도 있습니다. 그러나 우리가 고려하는 모든 프로세스 변형이 일부 데이터가 100V 이상일 때만 다르기 때문에이 문제는 발생하지 않으므로 여기서는 문제가되지 않습니다.
우리가 무엇을하든, 모델과 현실은 일치해야합니다. 그래야 이론적으로 보장되는 빈번한 오류율은 고객이 프로세스의 반복 된 성능을 실제로 얻는 것입니다.
베이지안 대안
다른 한편으로, 우리가 정말 걱정하는 모든 경우를위한 진정한 의미의 가능성 범위 이 샘플, 우리는 옆 frequentism을 완전히 던지고 그 질문에 대한 답을 판매하는 사람들 추구한다 - 베이 즈. 우리가이 길을 가면, 반 상황에 대한 모든 흥정은 무의미해진다. 중요한 것은 이전과 가능성입니다. 이러한 단순화와 함께, 우리는 "실험"의 반복 된 성능 하에서 오류율을 보장 할 것이라는 희망을 잃었다.
왜 소란?
이 이야기는 아무 이유없이 멍청한 것들에 대한 잦은 통계적 소란처럼 보이도록 만들어졌습니다. 솔직히 누가이 어리석은 반대 사실에 관심이 있습니까? 물론 대답은 모든 사람이 관심을 가져야한다는 것입니다. 실제로 중요한 과학 분야는 현재 심각한 복제 위기로 고통 받고 있으며 , 이는 과학적 문헌에서 잘못된 발견의 빈도가 예상보다 훨씬 높음을 암시합니다. 이 위기의 원인 중 하나는, 비록 유일한 방법은 아니지만 , p- 해킹 의 상승인데 , 이는 연구원들이 의미를 얻을 때까지 다양한 변수를 제어하면서 모델의 다양한 변형을 가지고 노는 경우입니다.
P- 해킹은 대중적인 과학 미디어와 블로그에서 광범위하게 비난을 받았지만 실제로 p- 해킹의 문제점과 그 이유를 이해하는 사람은 거의 없습니다. 일반적인 통계적 의견과는 달리 모델링 프로세스 전, 도중 및 후에 데이터를 보는 데 아무런 문제가 없습니다. 잘못된 점은 탐색 적 분석과 그것이 연구 과정에 어떤 영향을 미쳤는지를보고하지 않는 것입니다. 전체 프로세스를 살펴 보는 것만으로도 해당 프로세스를 대표하는 확률 적 모델과 해당 모델에 적합한 빈도 분석이 어떤 것인지 결정할 수 있습니다.
특정 잦은 분석이 적절하다고 주장하는 것은 매우 심각한 주장입니다. 그 주장은 당신이 선택한 확률 론적 과정의 규율에 자신을 구속하고 있음을 의미하며, 이것은 당신이 다른 상황에서 무엇을했는지에 대한 반 의사 시스템 전체를 수반합니다. 잦은 보증이 적용 되려면 실제로 해당 시스템을 준수해야합니다. 개방형 탐사를 강조하는 분야의 연구원, 특히 시스템을 준수하는 연구원은 거의 없으며, 편차를 철저하게보고하지 않습니다. 그렇기 때문에 우리는 이제 복제 위기를 겪고 있습니다. (일부 존경받는 연구자들은이 기대가 비현실적이고, 내가 공감하는 입장이지만,이 포스트의 범위를 벗어나고 있다고 주장했다.)
데이터가 다르면 어떻게했는지에 대한 주장에 근거하여 출판 된 논문을 비판하는 것은 불공평 해 보일 수 있습니다. 그러나 이것은 빈번한 추론의 (어떤 역설적 인) 본성입니다. p- 값의 개념을 받아들이는 경우 대체 데이터에서 수행 된 것을 모델링하는 합법성을 존중해야합니다. (Gelman & Loken, 2013)
임상 시험과 같이 비교적 단순하고 표준화 된 연구에서, 우리는 다중 또는 순차적 비교와 같은 것을 조정하고 이론적 오류율을 유지할 수 있습니다. 보다 복잡하고 탐구적인 연구에서, 연구자들이 결정을 기록하고 제시하는 것 뿐만 아니라 모든 결정을 완전히 인식 하지 못하기 때문에 빈번한 모델이 적용되지 않을 수있다 . 그러한 경우에, 연구원은 (1) 수행 된 일에 대해 정직하고 선행해야한다. (2) 강한 경고가 있거나 전혀없는 p- 값을 제시; (3) 가설의 사전 타당성 또는 후속 복제 연구와 같은 다른 증거를 제시하는 것을 고려하십시오.