전압계 이야기에서 잦은 주의자는 무엇입니까?


15

전압계 이야기와 그 변형에 대한 잦은주의는 무엇입니까? 그 가설은 나중에 가상의 사건이 가정 된대로 이루어질 수 없다는 것을 알게되면 가상 사건에 호소하는 통계 분석을 수정해야한다는 것이다.

위키 백과에 이야기의 버전은 아래와 같습니다.

엔지니어는 전자 튜브의 임의 샘플을 추출하여 전압을 측정합니다. 측정 범위는 75 ~ 99V입니다. 통계학자는 표본 평균과 실제 평균에 대한 신뢰 구간을 계산합니다. 나중에 통계학자는 전압계가 100까지만 읽으므로 인구가 '검열'된 것으로 보입니다. 통계학자가 정통이라면 새로운 분석이 필요합니다. 그러나 엔지니어는 1000 볼트의 또 다른 미터 판독 값을 가지고 있는데, 전압이 100을 초과하면 사용했을 것이라고 생각합니다. 이는 통계적으로 완화 된 수치입니다. 그러나 다음 날 엔지니어는 통계 담당자에게 측정 당시이 두 번째 미터가 작동하지 않았다고 알려줍니다. 통계학자는 엔지니어가 미터가 고정 될 때까지 측정을 보류하지 않았 음을 확인하고 새로운 측정이 필요하다고 알려줍니다. 엔지니어는 놀랍습니다. "다음으로 내 오실로스코프에 대해 질문합니다".

이 이야기는 분명히 어리석은 것이지만 재미난 방법론을 통해 어떤 자유가 취해지고 있는지는 분명하지 않습니다. 나는이 경우에 바쁜 통계학자가 이것을 걱정하지 않을 것이라고 확신하지만, 하드 코어 학계 학자들은 어떨까?

교의 적 빈번한 접근 방식을 사용하여 실험을 반복해야합니까? 이미 사용 가능한 데이터에서 결론을 도출 할 수 있습니까?

우리가 이미 가지고있는 데이터를 이용하고 싶다면 이야기가 제시하는보다 일반적인 요점을 다루기 위해 빈번한 틀에 맞도록 가설 적 결과를 수정해야합니까?


4
잦은 접근 방식은 또한 컨디셔닝을 허용하므로 견적에서 찾은 추론이 완전히 적합한 지 확실하지 않습니다.
시안

@ Xi'an 우리가 계산에서 샘플의 검열 또는 두 번째 전압계가 파손될 확률을 통합 했음에도 불구 하고 실험 설계변경된 후에 문제가 발생했습니다 . 그것이 빈번한 방법으로 화해 될 수 있는지 모르겠습니다.
Praxeolitic

6
조건부 원칙 에서이 항목을 확인하십시오 . 빈번하지는 않지만, 나는이 이야기의 열렬한 팬이 아닙니다. 왜냐하면 그것이 가능한 범위를 정의하지 않고 가능한 모든 가설 적 사건을 통합하는 것을 암시하는 것 같습니다. 이것은 오히려 풍자 만화입니다.
시안

5
이것은 참으로 사려 깊은 토론과 대답에 합당합니다. 그러나 "통계학자가 정통적" 이고 추가 작업에 대해 무능하거나 탐욕스럽지 않다면 , 그녀는 원래의 관찰이 검열되지 않았기 때문에, 원래의 절차 선택 (아마도 허용됨) 은 여전히 ​​인정 될 수 있으며 따라서 근거가 없다고 언급 할 것입니다. 그것을 바꾸십시오. "빈번한"통계 (결정 이론)를 뒷받침하는 이론적 근거는이 "우연성 원리"에 사용되지 않습니다.
whuber

1
데이터가 충분하다면 어떻게해야하는지 알고 있습니다. 히스토그램을 만들겠습니다. 히스토그램을 살펴 보겠습니다. 이 시점에서 단면 잘림 막대 그래프를 만드는 99의 명확한 경계가 있으면 잘린 것으로 의심됩니다. 또한 잘리지 않는 것으로 알려진 데이터를 살펴보고 곡선 모양을 검사하고 감마 분포 또는 그렇지 않은 것과 같은 확률 모델을 얻을 수 있는지 확인합니다. 그런 다음 잘린 데이터로 돌아가서 (가정적으로) 나머지 데이터도 감마 분포 (또는 기타)인지 확인합니다. 그런 다음 "왜 감마?" 그렇다면 나는 끝났습니다.
Carl

답변:


4

빈도주의 추론 , 우리는 경우 일이 일어 났을 것 빈도를 결정하려면 주어진 확률 과정이 반복적으로 실현되었다. 이것이 p- 값, 신뢰 구간 등의 이론에 대한 시작점입니다. 그러나 많은 응용 프로젝트에서 "주어진"프로세스는 실제로 제공되지 않으며 통계학자는이를 지정하고 모델링하는 작업을 적어도 수행해야합니다. 이 경우와 마찬가지로 이것은 놀랍게도 모호한 문제 일 수 있습니다.

데이터 생성 프로세스 모델링

주어진 정보를 바탕으로 가장 좋은 후보자는 다음과 같습니다.

  1. 100V 미터가 100V를 읽는 경우 엔지니어 는 작동중인 경우 1000V 미터로 다시 측정 합니다. 그렇지 않으면 그는 단순히 100V를 표시하고 계속 진행합니다.

그러나 이것이 엔지니어에게는 불공평하지 않습니까? 자신이 기술자가 아니라 엔지니어 인 경우 첫 번째 미터가 100V를 읽을 때 왜 재 측정해야하는지 이해할 것입니다. 미터가 범위의 상한에서 포화 되어 더 이상 신뢰할 수 없기 때문입니다. 아마도 엔지니어가 실제로 할 일은

  1. 100V 미터에 100이 표시되면 엔지니어 는 작동중인 경우 1000V 미터로 다시 측정 합니다. 그렇지 않으면 그는 단순히 100V를 표시하고 더하기 기호를 추가하여 포화 측정을 나타내며 계속 진행합니다.

이 두 프로세스는 모두 우리가 보유한 데이터와 일치하지만 프로세스가 다르며 신뢰 구간이 다릅니다. 프로세스 2는 통계 전문가로서 선호하는 프로세스입니다. 전압이 종종 100V를 훨씬 초과하는 경우 프로세스 1은 데이터가 알지 못하고 검열되기 때문에 측정이 때때로 과소 평가되는 치명적인 오류 모드가 있습니다. 이에 따라 신뢰 구간이 넓어집니다. 엔지니어에게 1000V 미터가 작동하지 않을 때 알려주도록 요청하면이를 완화 할 수 있지만 이는 실제로 데이터가 프로세스 2를 준수하도록하는 또 다른 방법 일뿐입니다.

말이 이미 헛간을 떠났고 측정이 언제 검열되지 않는지를 결정할 수 없다면 1000V 미터가 작동하지 않는 시간을 데이터에서 추론 할 수 있습니다. 프로세스에 추론 규칙을 도입하면 1과 2가 아닌 새로운 프로세스 1.5를 효과적으로 만들 수 있습니다. 추론 규칙이 작동하는 경우도 있고 그렇지 않은 경우도 있으므로 프로세스 1.5의 신뢰 구간은 프로세스 1 및 프로세스에 비해 중간 크기입니다. 2.

이론적으로, 세 가지 다른 대표적 확률 론적 과정과 관련된 세 가지 다른 신뢰 구간을 갖는 단일 통계량에 대해서는 잘못되거나 의심의 여지가 없습니다. 실제로 통계 소비자는 거의 세 가지 신뢰 구간을 원하지 않습니다. 그들은 실험이 여러 번 반복되었을 때 실제로 일어난 일을 기반으로 한 것을 원합니다. 따라서 일반적으로 적용된 통계학자는 프로젝트 중에 획득 한 도메인 지식을 고려하여 교육 된 추측을하고 추측 한 프로세스와 관련된 신뢰 구간을 제시합니다. 또는 고객과 협력하여 프로세스를 공식화하므로 향후 추측 할 필요가 없습니다.

새로운 정보에 응답하는 방법

이야기에서 통계학 자의 주장에도 불구하고, 잦은 추론은 확률 론적 과정을 생성하는 것이 원래 상상했던 것이 아니라는 새로운 정보를 얻을 때 측정을 반복 할 것을 요구하지 않습니다. 그러나 프로세스가 반복 될 경우 모든 반복이 신뢰 구간에서 가정 한 모델 프로세스와 일치하는지 확인해야합니다. 프로세스를 변경하거나 모델을 변경하여이를 수행 할 수 있습니다.

프로세스를 변경하면 해당 프로세스와 일치하지 않게 수집 된 과거 데이터를 폐기해야 할 수도 있습니다. 그러나 우리가 고려하는 모든 프로세스 변형이 일부 데이터가 100V 이상일 때만 다르기 때문에이 문제는 발생하지 않으므로 여기서는 문제가되지 않습니다.

우리가 무엇을하든, 모델과 현실은 일치해야합니다. 그래야 이론적으로 보장되는 빈번한 오류율은 고객이 프로세스의 반복 된 성능을 실제로 얻는 것입니다.

베이지안 대안

다른 한편으로, 우리가 정말 걱정하는 모든 경우를위한 진정한 의미의 가능성 범위 샘플, 우리는 옆 frequentism을 완전히 던지고 그 질문에 대한 답을 판매하는 사람들 추구한다 - 베이 즈. 우리가이 길을 가면, 반 상황에 대한 모든 흥정은 무의미해진다. 중요한 것은 이전과 가능성입니다. 이러한 단순화와 함께, 우리는 "실험"의 반복 된 성능 하에서 오류율을 보장 할 것이라는 희망을 잃었다.

왜 소란?

이 이야기는 아무 이유없이 멍청한 것들에 대한 잦은 통계적 소란처럼 보이도록 만들어졌습니다. 솔직히 누가이 어리석은 반대 사실에 관심이 있습니까? 물론 대답은 모든 사람이 관심을 가져야한다는 것입니다. 실제로 중요한 과학 분야는 현재 심각한 복제 위기로 고통 받고 있으며 , 이는 과학적 문헌에서 잘못된 발견의 빈도가 예상보다 훨씬 높음을 암시합니다. 이 위기의 원인 중 하나는, 비록 유일한 방법은 아니지만 , p- 해킹 의 상승인데 , 이는 연구원들이 의미를 얻을 때까지 다양한 변수를 제어하면서 모델의 다양한 변형을 가지고 노는 경우입니다.

P- 해킹은 대중적인 과학 미디어와 블로그에서 광범위하게 비난을 받았지만 실제로 p- 해킹의 문제점과 그 이유를 이해하는 사람은 거의 없습니다. 일반적인 통계적 의견과는 달리 모델링 프로세스 전, 도중 및 후에 데이터를 보는 데 아무런 문제가 없습니다. 잘못된 점은 탐색 적 분석과 그것이 연구 과정에 어떤 영향을 미쳤는지를보고하지 않는 것입니다. 전체 프로세스를 살펴 보는 것만으로도 해당 프로세스를 대표하는 확률 적 모델과 해당 모델에 적합한 빈도 분석이 어떤 것인지 결정할 수 있습니다.

특정 잦은 분석이 적절하다고 주장하는 것은 매우 심각한 주장입니다. 그 주장은 당신이 선택한 확률 론적 과정의 규율에 자신을 구속하고 있음을 의미하며, 이것은 당신이 다른 상황에서 무엇을했는지에 대한 반 의사 시스템 전체를 수반합니다. 잦은 보증이 적용 되려면 실제로 해당 시스템을 준수해야합니다. 개방형 탐사를 강조하는 분야의 연구원, 특히 시스템을 준수하는 연구원은 거의 없으며, 편차를 철저하게보고하지 않습니다. 그렇기 때문에 우리는 이제 복제 위기를 겪고 있습니다. (일부 존경받는 연구자들은이 기대가 비현실적이고, 내가 공감하는 입장이지만,이 포스트의 범위를 벗어나고 있다고 주장했다.)

데이터가 다르면 어떻게했는지에 대한 주장에 근거하여 출판 된 논문을 비판하는 것은 불공평 해 보일 수 있습니다. 그러나 이것은 빈번한 추론의 (어떤 역설적 인) 본성입니다. p- 값의 개념을 받아들이는 경우 대체 데이터에서 수행 된 것을 모델링하는 합법성을 존중해야합니다. (Gelman & Loken, 2013)

임상 시험과 같이 비교적 단순하고 표준화 된 연구에서, 우리는 다중 또는 순차적 비교와 같은 것을 조정하고 이론적 오류율을 유지할 수 있습니다. 보다 복잡하고 탐구적인 연구에서, 연구자들이 결정을 기록하고 제시하는 것 뿐만 아니라 모든 결정을 완전히 인식 하지 못하기 때문에 빈번한 모델이 적용되지 않을 수있다 . 그러한 경우에, 연구원은 (1) 수행 된 일에 대해 정직하고 선행해야한다. (2) 강한 경고가 있거나 전혀없는 p- 값을 제시; (3) 가설의 사전 타당성 또는 후속 복제 연구와 같은 다른 증거를 제시하는 것을 고려하십시오.


이것은 좋은 대답처럼 보이지만 내일 언젠가 정신적으로 소화해야합니다.
Praxeolitic

엔지니어가 항상 귀하의 옵션 # 2를하고 있다고 주장하는 것처럼 들리는 문제에 대한 설명으로
Aksakal

아마도, 그러나 그는 그렇게 명시 적으로 말하지 않았습니다. 사람들이 명시 적으로 논의하기보다는 다른 사람들이 생각하는 것을 추측 할 때 큰 오류가 발생할 수 있습니다.
Paul

응용 통계 과정에서는 매개 변수를 추정하는 것이 의미하는 형식에 대한 강조가 너무 적습니다. 우리가 동전을 던져서 머리의 빈도를 기록 할 계획이라고 가정하십시오. 우리는 실제 분포가 Bernoulli이고 p = q = 0.5라고 가정합니다. 1,000 번 넘긴 후에 우리는 현실을 이론 / 가정과 비교하여 '이것이 공정한 동전이었을 가능성이 얼마나 높은가'라고 스스로에게 묻습니다. 그러나 많은 과학에서 사람들은 사물이 정상적으로 분포되어 있다고 가정 한 다음 t- 검정을 사용합니다. 그러나 수익이 정상적으로 분배되지 않으면 의미가 없습니다.
eSurfsnake

1

논리적 오류가있는 것 같습니다. 엔지니어는 1000 볼트 미터의 작동 여부에 관계없이 "판독 값이 100을 넘으면 다른 미터를 사용했을 것"이라고 말합니다. 그러나 1000 볼트 미터를 사용하지 않고 전압이> 100임을 어떻게 알 수 있습니까?

나는이 퍼즐이 유용한 철학적 질문을하기에 충분하게 공식화되지 않았다고 생각한다. 실제로, 나는 히스토그램을 만들고 그것이 잘린 것처럼 보이는 것이 옳은 일이라는 대답에 동의합니다.

그러나 어떤 경우에도 문제의 문제는 다음과 같은 문제와 관련이 없습니다. (1) 알려진 (또는 의심되는) 판독 값 분포와 그 이유는 무엇입니까? 그것들이 정규 분포되어 있다고 믿을만한 이유가 있습니까? (2) 그 질문에 답이 없다면, 신뢰 구간은 어떻게 추정 되었습니까?

그것을 극도로 끌어 올리기 위해 일부 '전압'이 측정되고 있습니다. 전원 공급 장치가 100V를 초과하여 공급할 수 없다고 가정하십시오. 100 볼트 이상 측정이 불가능한 것으로 추정되었으므로 미터는 관련이 없습니다.

선행, 제약 등의 측면에서 문제가 다루는 것보다 추정 등에 이르는 많은 것들이 있습니다. 이것은 선명하고 깨끗한 'Monty Hall'역설과는 다릅니다.


1
이야기의 요점은 이러한 해석을 터무니없는 극단적으로 확장하여 가상 사건에 의존하는 확률의 해석을 비판하는 것입니다. 언급 한 문제는 요점 옆에 있습니다. 아마도 엔지니어는 필요한 경우 전압계를 변경하는 것으로 알고 있었으며 (예 : "100"판독 값 참조) 통계학자는 그렇지 않은 경우 자신이 사용중인 접근 방식을 사용해야하는 이유가 있습니다 (예 : 정규 분포가 양호 함을 이미 알고 있음) 이 판독 값에 대한 모델).
Praxeolitic
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.