XKCD의 Frequentists vs. Bayesians 만화에 어떤 문제가 있습니까?


113

xkcd 만화 번호 1132

이 xkcd 만화 (Frequentists vs. Bayesians) 는 명백히 잘못된 결과를 도출하는 잦은 통계학자를 재미있게 만듭니다.

그러나 그의 추론은 그것이 표준 잦은 방법론을 따른다는 점에서 실제로 올바른 것 같습니다.

그래서 제 질문은 "자주주의 방법론을 올바르게 적용하고 있습니까?"입니다.

  • 그렇지 않은 경우 :이 시나리오에서 올바른 잦은 추론은 무엇입니까? 잦은 방법론에서 태양 안정성에 대한 "사전 지식"을 통합하는 방법은 무엇입니까?
  • 그렇다면 : wtf? ;-)

17
Gelman의 블로그에 대한 토론 : andrewgelman.com/2012/11/16808
Glen

5
나는 빈번주의와 베이지안 관점에서 많은 것이 잘못이라고 생각한다. 나의 가장 큰 비판은 각각 : 첫째, P 값은 궁극적으로 휴리스틱이며 통계적 문제, 데이터 및 실험을 포함한 여러 가지 속성입니다. 여기서 세 가지 모두 그 특정 질문에 대해 심각하게 잘못 표현되어 있습니다. 둘째, "베이지안"은 베이지안 일 필요가없는 결정 이론적 접근을 사용한다. 그래도 재미있다.
Momo

5
통계 영역에서 빼내려면 .... 태양은 신성하게 갈만큼 거대하지 않습니다. QED, 베이지안이 옳습니다. ( 태양은 대신 적색 거성이 될 것입니다 )
벤 Brocka

3
@Glen 등 alii는, 특히, 겔만에 랜달 먼로의 반응을주의 : andrewgelman.com/2012/11/16808/#comment-109366
jthetzel

2
여기서 잦은 통계학자가 멍청한 이유는 그가 잦은 사람이기 때문이 아니라 기계가 어떻게 작동하는지 분명히 알기 때문에 기계가 부적절한 측정이라는 것을 알고 어쨌든 추론을하기 때문입니다.
rvl

답변:


44

가장 큰 문제는 첫 번째 실험 (Sun gone nova)을 반복 할 수 없다는 점인데, 이로 인해 확률이 사건이 얼마나 빈번하게 발생 하는지를 추정하여 실험을 여러 번 반복 할 수있는 확률로 해석하는 잦은 방법론에는 적합하지 않습니다. 대조적으로, 베이지안 확률은 모든 이용 가능한 사전 지식을 제공하는 우리의 신념 수준으로 해석되어 일회성 사건에 대한 상식 추론에 적합합니다. 주사위 던지기 실험은 반복 가능하지만, 어떤 빈번한 실험도 의도적으로 첫 번째 실험의 영향을 무시하고 얻은 결과의 중요성에 확신을 가질 가능성은 거의 없습니다.

저자는 반복 가능한 실험과 사전에 대한 불신에 대한 잦은 의존을 조롱하는 것처럼 보이지만 잦은 방법론에 실험 설정의 부적합성을 부여하는 것은이 만화의 실제 주제가 잦은 방법론이 아니라 일반적으로 부적합한 방법론을 따르지 않는다는 것입니다. 그것이 재미 있든 없든 당신에게 달려 있지만 (두 가지입니다) 두 접근법의 차이점을 명확히하는 것보다 더 오도 된 것 같습니다.


1
이에 (+1) 좋은 참조 강력하고 중요한 frequentism의 반복성의 가정은 과학 (2000)의 통계 추론은 , 제 1 장 (어느 말하기 어렵다 너무 많은 문제가 있지만 주된 일)

36
반복성 인수로 그렇게 빠르지는 않습니다 ... 첫째, 반복 가능한 실험은 기계가 태양을 향한 노바가 아니라는 것입니다. 그 사실 은 고정되어 있지만 알려지지 않은 추론의 대상입니다. 쿼리 실험은 확실히 반복 될 수 있으며, 몇 번이나 더 자주 잦은 전략은 합리적으로 보일 수 있습니다.
공역 사전

6
둘째, 반복성 사업에 대해 너무 엄격해서는 안되며, 비전문가가 아닌 상황에서 잦은 사람들이 전혀 추론 할 수 없도록해야합니다. '태양이 간다'는 후보 이벤트라고 잠시 가정 해 보자. 나는 물리학자는 아니지만 '태양이 간다'라는 이벤트가 자주 발생한다는 것을 들었습니다. "고려 된 반복은 : 어떤 경우에, ( '통계의 기초'에서) 데이비드 콕스 등의 민속 유쾌 같은 것들을 말할 거의 항상 가정 . 그 자체로이 더 단점 보인다"을.
공역 사전

7
우리는 양자 거울을 가지고 있다면 원칙적으로 실험을 반복 할 수있는 평행 우주에서 태양의 집단으로부터 태양을 무작위 샘플로 볼 수 있습니다! ; o)
Dikran Marsupial

2
태양에 대한 검사가 반복적으로 폭발하지 않는 이유는 무엇입니까? 나는 매일 아침 확인하고, 아직 폭파되지 않았습니다.
GKFX

27

내가 볼 수있는 한, 잦은 비트가 지금까지 합리적입니다.

하자 태양이 폭발하지 않았으며 가설 수 는이 가설을합니다. 따라서 p- 값은 에서 결과 (기계가 "예"라고 말함)를 관찰 할 확률입니다 . 기계가 중성미자가없는 것을 정확하게 감지한다고 가정하면 기계가 아래에 "예"라고 표시되면 기계가 을 결과 우리에게 거짓말하기 때문입니다. 따라서 p- 값은 1/36이므로 일반적인 준-피셔 과학 관행에 따라 잦은 주의자 는 95 % 유의 수준에서 귀무 가설을 기각합니다 .H 1 H 0 H 0H0H1H0H0

그러나 귀무 가설을 기각한다고해서 대체 가설을 받아 들일 자격이 있다는 의미는 아니기 때문에 빈번한 결론은 분석에 의해 정당화되지 않습니다. 빈번한 가설 검정은 위조 개념 (일부)에 대한 아이디어를 구현하며, 어떤 것이 진실인지 입증 할 수 없으며 단지 반증합니다. 그래서 당신이 주장 할 경우 , 당신은 가정 사실이고 당신이 있음을 보여줄 수있는 경우에만 진행 데이터와 일치하지 않습니다. 그러나 이것이 이 사실임을 의미하지는 않습니다 . 단지 테스트에서 살아남고 최소한 다음 테스트까지 가능한 가설을 계속 유지한다는 것입니다.H 0 H 0 H 1H1H0H0H1

베이지안은 또한 상식이며, 내기를함으로써 잃을 것이 없다는 것을 지적합니다. 오 탐지 및 오음 비용이 고려 될 때 (Neyman-Peason?) 빈번한 접근 방식이 장기 이익 측면에서 최상의 전략과 동일한 결론을 도출 할 것이라고 확신합니다.

요약 : 잦은 운동가와 베이지안은 여기에서 조잡 해졌다 : 적절한 중요성 수준, 가양 성 / 거짓 음수 비용 또는 문제의 물리학을 고려하지 않고 맹목적으로 조리법을 따르는 학자 . Bayesian은 자신의 사전을 명시 적으로 언급하지 않은 채 조잡 해졌지만 다시 사용하는 상식을 사용하는 것은 명백히 정확합니다 (실제로 폭발 한 태양보다 기계가 누워있을 가능성이 훨씬 높음).


4
귀무 가설을 기각한다는 것은 단순히 관측치가 IF H0에 해당되지 않을 것임을 의미합니다. 기본적으로 H0이 참이면 관측치가 거의 없기 때문에 H1이 참이어야한다고 말하고 있으므로 H1을 "수락"해서는 안됩니다. 그러나 관측치가 H1 (널 의식이 무시하는 경우)에서는 거의 없을 수 있으며 H1이 H0 a-priori (널 의식도 무시하는 것)보다 적을 수 있습니다. 가설을 받아들이는 것은 빈번한 테스트를 베이지안 테스트로 해석하기에 미끄러운 경사로, 일반적으로 적은 기본 사례에서 오해를 초래합니다.
Dikran Marsupial

4
당신의 의견을 우연히 발견했습니다. 그리고 @glassy와 같은 질문이 있습니다. 귀하의 가설이 이벤트의 전체 공간을 커버 할 경우 { "Sun은 nova로 갔다", "Sun은 nova를 갔다"} 고, " "노바가 갔다"는 자동으로 "노바가 노바로 가지 않았다"로 이어지지는 않는다. 진술을 거짓으로 선언하면 그 부정이 사실임을 암시합니다. 가능한 경우이 점을 명확하게 설명하는 신뢰할 수있는 참조 텍스트를 제공하면 좋을 것입니다. 그것에 대해 더 자세히 알고 싶습니다.
의미 수단

3
귀무 가설을 기각한다고 해서 귀무 가설이 아마도 거짓이라는 것을 자동으로 의미하는 것은 아니며 대립 가설을 계속 진행하는 것이 합리적이라는 것입니다. 이것은 잦은 가설 검정이 가설의 사전 확률을 고려하지 않기 때문에 (부분적으로)입니다. 더 근본적으로, 빈번한 방법은 특정 가설의 진실에 확률을 할당하는 데 사용될 수 없으므로, "우리는 귀무 가설을 기각 할 수있다"와 "무귀 가설이 아마도 거짓"사이의 링크는 전적으로 주관적인 것입니다. 볼 수 있습니다.
Dikran Marsupial

2
이것은 일종의 요점입니다. H1 수용 여부에 대한 결정은 주관적이며 "H0 거부는 일반적으로 H1 수용 으로 이어집니다 "테스트 결과의 필수 결과는 아닙니다 . 문제는 [P (H0), P (H1), P (Z | H1)] 결정에 필요한 정보가 테스트에 나타나지 않는다는 것입니다. 기본적으로이 정보 중 일부는 임계 값 설정에 부분적으로 포함되어 있지만 일반적으로 불완전하며 종종 설명되지 않고 정당하지 않은 상태로 남아 있습니다. 사전은 여전히 ​​객관적인 객관적인 테스트에서 여전히 주관적이지만 암묵적으로 남겨졌습니다. 두 세계에서 최악입니다! ; o)
Dikran Marsupial

3
@Dikran, 나는 우리가 서로를 잘 이해하고 의견 섹션을 남용하는 것을 중단해야한다고 생각하지만, 마지막으로 한 가지 언급 : 주관적으로 내가 선택한 주관적으로 선택한 기반으로 [amoeba-reject] H0을 주관적 으로 거부 하면 H1을 주관적으로 선택 합니다 . P (H1)에 대한 나의 주관적인 전문가 평가. "나는 H0를 거부 할 수 있기 때문에 H1을 받아들이도록 강요받지 않았다"고 말하는 것은 언어 적으로 의미가 없다. 그러나 나는 "5 % 수준에서 H0를 거부 할 수 있다고해서 H1을 받아들이도록 강요받지는 않는다"는 것에 동의합니다. 내 요점 : 5 % 수준에서 H0를 거부 할 수있는 rejecting . α
amoeba

25

이 결과가 왜 "잘못된 것"입니까? 베이지안은 태양이 언제 폭발 할 것인지에 대한 "사전"신념이 있기 때문에 결과가 반 직관적으로 보인다고 말하고이 기계가 제공 한 증거로는 그러한 신념을 씻어 내기에 충분하지 않습니다 (주로 인해 불확실성 때문에) 동전 뒤집기). 그러나 빈번한 사람들은 그러한 평가를 할 수 있으며, 신념이 아닌 데이터의 맥락에서 그렇게해야합니다.

역설의 실제 원천은 수행되는 잦은 통계 테스트가 사용 가능한 모든 데이터를 고려하지 않는다는 사실입니다. 만화에서 분석에는 아무런 문제가 없지만, 태양이 오랫동안 폭발하지 않을 것이라는 것을 알고 있기 때문에 결과는 이상하게 보입니다. 그러나 우리는 이것을 어떻게 압니까? 태양이 폭발 할 때 시간을 제한 할 수있는 측정, 관찰 및 시뮬레이션을 수행했기 때문입니다. 따라서 우리의 모든 지식은 이러한 측정 및 데이터 포인트를 고려해야합니다.

베이지안 분석에서, 이러한 측정은 이전 측정을 구성하기 위해 이러한 측정을 사용하여 수행됩니다 (하지만 측정을 이전으로 변환하는 절차는 잘 정의되어 있지 않습니다. 아래로 길 "). 따라서 베이지안이 이전을 사용할 때 그는 빈번 주의자의 p- 값 분석이 특권이 없다는 많은 추가 정보를 실제로 고려하고 있습니다.

따라서 동일한 기반을 유지하기 위해 문제에 대한 전체 잦은 분석에는 베이지안을 구성하는 데 사용되는 태양 폭발에 대한 동일한 추가 데이터가 포함되어야합니다. 그러나 잦은 주의자는 사전을 사용하는 대신 다른 측정을 통합하는 데 사용할 가능성을 확장하고 p- 값은 전체 가능성을 사용하여 계산합니다.

LL=L (기계 말 예 | 태양이 폭발했습니다) * (태양에 대한 다른 모든 데이터 | 태양이 폭발했습니다)L

전체 빈번한 분석은 가능성의 두 번째 부분이 훨씬 더 제한적이며 p- 값 계산에 지배적 인 기여를 할 것임을 보여줍니다 (태양에 대한 풍부한 정보 와이 정보의 오류가 있기 때문에) 작습니다 (희망적으로).

실제로, 빈번한 계산을 수행하기 위해 지난 500 년 동안 얻은 모든 데이터 요소를 수집하고 수집 할 필요가 없으며, 태양이 폭발했는지 여부에 대한 불확실성을 인코딩하는 간단한 가능성 용어로 추정 할 수 있습니다. 이것은 베이지안의 이전과 비슷해 지지만, 가능성이 있기 때문에 철학적으로 약간 다릅니다. 즉, 이전의 측정을 인코딩한다는 것을 의미합니다 (이전의 믿음과는 다른 이전의 측정과는 반대로). 이 새로운 용어는 우도의 일부가 될 것이며 이전 베이지안과는 반대로 신뢰 구간 (또는 p- 값 등)을 구축하는 데 사용되며, 이는 신뢰할 수있는 구간 또는 사후를 형성하기 위해 통합됩니다.


1
이 답변은 가장 승인 된 답변이어야합니다.
Amelio Vazquez-Reina

11

내가 볼 수있는 가장 큰 문제는 테스트 통계 파생이 없다는 것입니다. 값에 대한 (베이지안 통계 그것에 대해 실장하는 모든 비평 포함) -value 테스트 통계 로서 정의된다 ( 통계 의 경우와 같이 더 큰 값에 대해 널이 거부된다고 가정 ). 더 중요한 결정에 도달해야하는 경우 임계 값을 높이고 거부 영역을 더 높일 수 있습니다. 실제로 Bonferroni와 같은 여러 가지 테스트 수정으로 대해 훨씬 낮은 임계 값을 사용하도록 지시합니다.t T P r o b [ T t | H 0 ] T의 χ 2 P 0 , 1 / 36 , 2 / 36 , ...ptTProb[Tt|H0]Tχ2p-값. 대신, 잦은 통계학자는 의 그리드에서 크기 테스트를 수행합니다 .0,1/36,2/36,

물론,이 "자주 주의적"접근 방식은 결과가 거의 재현 될 수 없기 때문에 비 과학적입니다. Sun이 초신성을 유지하면 초신성을 유지하므로 감지기는 계속해서 "예"라고 말합니다. 그러나이 시스템을 반복해서 실행해도 "예"결과가 다시 나타나지 않을 수 있습니다. 이것은 자신을 엄격하게 제시하고 실험 결과를 재현하려고하는 분야에서 인정됩니다. 내가 이해하는 한 5 % (원본을 게시하는 것은 순수한 유형 I 오류였습니다) 사이의 확률로 발생합니다. 일부 의료 분야에서는 약 30-40 % 정도입니다. 메타 분석 사람들은 더 나은 숫자로 당신을 채울 수 있습니다. 이것은 통계 포도 나무를 통해 때때로 저를 가로 질러 오는 버즈입니다.

"적절한"빈번한 관점에서 또 다른 문제는 다이를 굴리는 것이 전력 = 유의 수준 (최소한이 아니라면 5 % 유의 수준에 대한 2.7 %의 전력은 자랑 할만한 것이 없음) 인 가장 강력한 테스트라는 것입니다. t-tests에 대한 Neyman-Pearson 이론은 이것이 UMPT임을 입증하는 것에 대해 괴로워하며 많은 눈썹 통계 이론 (간신히 이해해야하지만 인정해야 함)은 전력 곡선을 도출하고 주어진 조건을 찾는 데 전념 주어진 수업에서 가장 강력한 시험입니다. (크레딧 : @Dikran Marsupial은 의견 중 하나에서 권력 문제를 언급했습니다.)

나는 이것이 당신을 괴롭히는 지 모르겠지만, 베이지안 통계학자는 수학을 모르고 도박 문제가있는 사람으로 여기에 표시됩니다. 적절한 베이지안 통계학자는 이전을 가정하고, 객관성 정도를 논의하고, 후자를 도출하며, 데이터에서 얼마나 많은 것을 배웠는지 보여줄 것입니다. 그 중 어느 것도 수행되지 않았으므로 베이지안 프로세스는 빈번한 프로세스만큼 지나치게 단순화되었습니다.

이 상황은 암 문제에 대한 고전적인 스크리닝을 보여줍니다 (그리고 나는 생물 통계학자가 그것을 할 수있는 것보다 더 잘 묘사 할 수 있다고 확신합니다). 불완전한 도구로 희귀 질환을 선별 할 때, 대부분의 양성은 거짓 양성으로 나타납니다. 똑똑한 통계 학자들은이를 알고 있으며 더 비싸고 정확한 생검으로 값 싸고 더러운 스크리너를 추적하는 것이 좋습니다.


2
첫 번째 단락을 올바르게 이해하면 임계 값 (만화의 0.05)이 너무 높게 설정되어 있습니다. 만화에 2 개가 아닌 5 개의 주사위가 있다면, 임계 값을 충분히 낮게 수락 하시겠습니까? 어쨌든 임계 값을 어떻게 결정합니까?
ShreevatsaR

9
나는 베이지안 통계학자가 단순히 태양이 폭발 할 확률이 기계가 놓여질 확률보다 훨씬 적다는 것을 고려했다고 생각했다 (그래서 단서가없는 도박꾼 일 필요는 없다).
josh

8
더 많은 지점 : 태양 노바을가는 경우, 내기의 승자는 ... 그의 50 $를 현금으로 할 수 없습니다
kjetil B 형 할보 르센

6
저는 여기서 빈번한 통계학자가 분석의 진정한 목적을 생각하지 않고 레시피를 따르고 있다고 생각합니다. 소위 "베이지안"은 실제로 베이지안이 아니라, 단지 상식을 사용하는 사람입니다. 과학 저널에는 다음과 같은 맹인 레시피에 대한 많은 예가 있습니다. 이것이 만화가 재미있는 이유입니다.
Dikran Marsupial

3
테스트 통계가 부족하다고 생각하지 않는 문제는 아닙니다. 검정 통계량은 데이터의 일부 기능 일뿐입니다. 따라서 정체성 기능, 즉 여기에서 데이텀 자체는 최소한 원칙적으로 작동하는 것처럼 보입니다.
공역 사전

6

이 만화에는 아무런 문제가 없으며 그 이유는 통계와 아무 관련이 없습니다. 경제학입니다. 잦은 주의자가 정확하다면, 지구는 48 시간 안에 거주 할 수 없게 될 것입니다. $ 50 의 값은 사실상 null입니다. 이것을 인식하는 베이지안은 그의 경우 자신의 이익이 정상적인 경우 50 달러 이고 태양 폭발 사건에서는 거의 아무것도 아니라는 사실을 알 수 있습니다 .


이것은 "통계 할 수있는 뭔가가"않기 때문에 명시 적 베이지안 통계 모델이 '손실 함수를 최소화 "등)
파비오 Beltramini

5

CERN은 중성미자가 빛보다 빠르지 않다고 결정 했으므로 중성미자 변화가 감지되기 ​​전에 전자기 방사선 충격 전선이 지구에 부딪 칠 것입니다. 이것은 최소한 (매우 단기적으로) 환상적인 오로라 효과를 가질 것입니다. 따라서 그것이 어두워 진다고해서 하늘이 밝아지는 것을 막을 수는 없습니다. 인공위성이 기화되고 자체 연소되면서 달이 지나치게 밝게 빛나지 않는 것 (라리 니븐의 "불변의 달"참조)과 화려한 섬광.

대체로 잘못된 테스트일까요? (그리고 이전에 있었을 수도 있지만, 사후의 현실적인 결정에 대한 시간이 충분하지 않을 것입니다.


1
그렇다면 태양이 폭발했다는 가설을 기각해야 할 더 많은 이유가 있습니다. :-)
ShreevatsaR

이것이 저자가 "확인 연구가 필요하다"고 말할 때이 기사의 끝 부분에서 무엇을 의미합니까?
DWin

사실, 이것을 자연스럽게 재검토하면 명확한 추론이 제목에 있습니다. 기계 태양이 노바로 갔는지 여부를 감지 합니다. 감지시 오류가 발생하지 않습니다. 중성미자 비트는 관련이 없습니다. 주어진 통계는 머신이 "아니오", "아니오", "아니오"로 응답하도록 통계가 종료됩니다. 프로세스가 발생합니다 - 이것은 또한 거짓보고되는의 1/36 기회를 가질 것 (아니오), 경우 기계가 8 홀수 분 간격 동안 쿼리가 지구에 분명하게하는 데 많은 시간이 소요됩니다.
SimonN

4

@GeorgeLewis에 동의하여 Frequentist 접근법이 잘못되었다고 결론을 내릴 수는 없습니다. 더 많은 데이터를 수집하기 위해 중성미자 검출기를 몇 번 더 다시 실행 해 봅시다. 이전과 엉망이 될 필요가 없습니다.


2

여기에서 모든 장황한 답변 중에서 잃어 버릴 수있는 더 간단한 요점은 빈번 주의자가 단일 표본을 기반으로 결론을 도출한다는 점입니다. 실제로 당신은 이것을하지 않을 것입니다.

유효한 결론에 도달하려면 통계적으로 유의 한 표본 크기 가 필요합니다 (즉, 과학은 반복 가능해야 함). 실제로 잦은 주의자는 기계를 여러 번 실행 한 다음 결과 데이터에 대한 결론을 내립니다.

아마도 이것은 기계에게 동일한 질문을 몇 번 더 요구하는 것을 수반 할 것입니다. 그리고 아마도 기계가 36 번마다 1 번만 틀리면 명확한 패턴이 나타납니다. 그리고 그 패턴 (한 번의 단일 판독으로부터)으로부터 빈번 주의자는 태양이 폭발했는지의 여부에 관한 (정확하게 정확한 말입니다) 결론을 도출 할 것입니다.


4
"통계적으로 중요한 표본 크기"란 무엇을 의미합니까?
Momo

@Momo-하나 이상의 샘플 이상입니다. 예상 할 수없는 결과를 관찰 한 다음, 예측을 반복하지 않고 불가능한 결과가 발생했다는 결론을 내릴 수 없습니다. 통계적으로 유의 한 표본 크기를 나타내는 정확한 숫자 또는 정확한 숫자를 결정하는 알고리즘을 원하는 경우 통계학자가이를 제공 할 수 있습니다. 하지만 저는 통계학자가 아닙니다.
aroth

3
표본 크기가 1 인 문제가 있다고 생각하지 않습니다. 문제는 검정에 통계적 검정력이 없다는 것입니다 (즉, 검정이 귀무 가설을 거짓으로 가정하면 절대로 가정하지 않습니다). 그러나 이것은 기사에서 "무의식"이 불명확 한 문제를 나타내며, 이는 통계 력 문제 (및 H1이 실제로 무엇인지 또는 문제와 관련된 사전 정보)를 무시합니다.
Dikran Marsupial

1
@Dikran 그것은 최고의 답변 중 하나입니다! 만화에서 "자주 주의자"의 문제점 은 테스트의 속성에 대한 필요한 평가를 먼저 수행하지 않고 특정 통계적 의식 을 따랐다는 것입니다. (이 결정에 관련된 손실 함수가 무엇인지를 고려하여 분석을 확장 할 수도 있습니다.) 따라서 만화는 통계 절차를 이해하거나 그들의 가정을 확인하지 않고 통계 절차를 사용하는 모든 사람들을 깔끔하게 왜곡시킵니다.
whuber

2

귀하의 질문에 대한 답변 : "그는 종종 잦은 방법론을 적용합니까?" 그는 빈번한 접근 방식을 정확하게 적용하지 않습니다. 이 문제의 p- 값은 정확히 1/36이 아닙니다.

우리는 먼저 관련된 가설이

H0 : 태양이 폭발하지 않았습니다.

H1 : 태양이 폭발했습니다.

그때,

p-value = P ( "기계는 예를 반환합니다"| 태양은 폭발하지 않았습니다).

이 확률을 계산하려면 "기계가 예를 반환합니다"는 "중성미자 감지기가 태양 폭발을 측정하고 실제 결과를 알려주거나 중성미자 감지기가 태양 폭발을 측정하지 않고 우리에게 놓여 있음"과 동등하다는 점에 유의해야합니다.

주사위 던지기가 중성미자 감지기 측정과 무관하다고 가정하면 다음을 정의하여 p- 값을 계산할 수 있습니다.

p0 = P ( "중성미자 감지기가 태양 폭발을 측정합니다"| 태양이 폭발하지 않았습니다),

그런 다음 p- 값은

p- 값 = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).

이 문제의 경우 p- 값은 1/36에서 35/36 사이의 숫자입니다. p0 = 0 인 경우에만 p- 값은 1/36입니다. 즉,이 만화에서 숨겨진 가정은 태양이 폭발하지 않은 경우 탐지기 시스템이 태양 폭발을 측정하지 않는다는 것입니다.

더욱이, 노바 노 폭발의 외부 증거에 대한 가능성에 훨씬 더 많은 정보가 삽입되어야한다.

모두 제일 좋다.


1

잦은 접근 방식에는 아무런 문제가 없습니다. 귀무 가설이 기각되면 p- 값은 유형 1 오류의 확률입니다. 유형 1 오류는 실제 귀무 가설을 기각합니다. 이 경우 p- 값은 0.028입니다. 이는이 p- 값을 사용한 모든 가설 검정 중에서 백 개 중 약 3 개가 실제 귀무 가설을 기각한다는 것을 의미합니다. 건설적으로, 이것은 그러한 경우 중 하나입니다. 빈번한 전문가들은 때때로 귀무 가설을 기각하거나 허위 귀무 가설 (유형 2 오류)을 유지한다는 점을 인정합니다. 또한 장기적으로 잘못된 추론 빈도를 정확하게 측정합니다.

아마도이 결과를 보는 덜 혼란스러운 방법은 가설의 역할을 교환하는 것입니다. 두 가설은 단순하기 때문에 쉽게 수행 할 수 있습니다. 널이 태양이 신성 해 졌다면, p- 값은 35 / 36 = 0.972입니다. 이것은 태양이 신성 해졌다는 가설에 대한 증거가 아니기 때문에이 결과를 근거로 태양을 기각 할 수는 없습니다. 이것은 더 합리적인 것 같습니다. 당신이 생각한다면. 왜 태양이 신성 해 졌다고 생각할까요? 부탁 할게 폭발하는 태양에 대한 생각이 말도 안된다면 왜 그런 실험을 수행할까요?

나는 이것이 실험의 유용성을 미리 평가해야한다는 것을 보여준다고 생각한다. 예를 들어,이 실험은 단순히 하늘을 바라 보는 것만으로도 이미 알고있는 것을 테스트하기 때문에 완전히 쓸모가 없습니다 (실제로 p 값이 실제로 0 임). 좋은 과학을 만들려면 좋은 실험을 설계해야합니다. 실험이 제대로 설계되지 않은 경우 어떤 통계적 추론 도구를 사용하더라도 결과가 유용하지 않을 수 있습니다.


그러나 베이지안은 여전히 주어진 데이터 / 실험 결과 로 합리적인 결론을 추론 할 수 있습니다 . 때로는 실험을 반복하거나 원하는 방식으로 실험 할 수 없습니다.
Amelio Vazquez-Reina

이는 베이지안 추론이 이전의 경험을 쉽게 통합하여 특별한 결과가 통계적 가중치를 갖는 것을 어렵게 만듭니다 (통계적 우위로부터 우리를 보호합니다). 그러나 이것은 베이지안 틀에서 쓸모없는 실험이기도합니다. 이전은이 실험에서 어떤 결과도 그것을 바꿀 수 없다는 결론에 찬성합니다. 이전이 너무 강하면. 실험을 수정하지 않고 실험을 수행하는 이유는 무엇입니까? 약한 선행을 고려할 때 (데이터에 의해 변경 될 가능성이 거의 없음), 베이지안 및 빈번한 방법은 일반적으로 "비교할 수있는"결과를 산출한다고 생각합니다.
Jose Garmilla

0

잦은 방법론에서 태양 안정성에 대한 "사전 지식"을 통합하는 방법은 무엇입니까?

매우 흥미로운 주제.

완벽한 분석이 아닌 몇 가지 생각이 있습니다 ...

정보가없는 사전에 베이지안 접근 방식을 사용하면 일반적으로 자주 사용하는 것과 비슷한 통계적 추론이 제공됩니다.

베이지안은 왜 태양이 폭발하지 않았다는 강한 믿음을 가지고 있습니까? 그는 태양이 처음부터 폭발하지 않았 음을 모두 알고 있습니다.

우리는 사전 분포를 사용하는 것이 비 정보적인 사전 및 예비 실험에서 파생 된 사후 분포를 사용하는 것과 켤레라는 접합체 이전의 일부 간단한 통계 모델에서 볼 수 있습니다 .

위의 문장은 Frequentist가 예비 실험 결과를 모델에 포함시켜 베이지안으로 결론을 내릴 것을 제안합니다. 그리고 이것이 베이지안이 실제로하는 것입니다 : 그의 사전은 예비 실험에 대한 그의 지식에서 나옵니다!

Nxiixiθxixi=1i=1,,N

N+1xiy={Yes}θ θ x 1 , , x N y 1 N y = { } θ θPr(xN+1=0)θθx1,,xNy1Ny={Yes}θ. 그리고 베이지안은 에 대한 사전 배포를 통해이 정보를 반영하려고합니다 .θ

이 관점에서 나는 가설 검정과 관련하여 질문을 어떻게 바꾸는 지 알지 못한다. 를 복용 하는 것은 사실 / 거짓 가설이 아니라 내 해석에서 실험의 문제가 될 수 있습니다. 어쩌면 이것은 Frequentist의 오류입니까?H0={the sun has not exploded}


"... 그는 태양이 처음부터 폭발하지 않았다는 것을 모든 사람들이 알고있다"라는 구절은 수백만의 칠면조 ( Meleagris gallopavo )가 소비되는 최근 미국 휴가에 관한 이야기를 떠올리게 한다. 시간이 지남에 따라 매일 지능적인 칠면조는 11 월 중순에 운명적인 날 (그리고 그녀에게 예상치 못한) 날까지 자신이 먹이를주고 돌볼 것임을 "모든 사람으로 알고 있습니다"! 마찬가지로, 태양에 대한 인간의 관찰이 비교적 짧은 역사라면 태양의 안정성에 대한 우리의 확신은 낮아야합니다.
whuber

@ whuber 나는이 메시지를 개인적으로 보내길 원했다. 귀하의 의견과 토론 주제 사이에 관련이 있습니까? 나는 그것이 나에게 아이디어가되는지 모르겠다. 그러나 나는 당신이 주로 내 대답에 반대하는 말을하기 위해 나의 대답에 대해 언급하는 느낌이 여러 번왔다. OP가 제기 한 운동은 만화의 해석이며, 나는 당신이 마치 실제 문제에 대해 이야기하는 것처럼 내 대답을 비판한다고 생각합니다. 최근에 나는 감사하지 않았으며 왜 아직도 당신이 내 대답의 뒤에 "의도"를 일으켰는지 이해하지 못했습니다.
Stéphane Laurent

암시 적이거나 의도적 인 비판은 없었습니다. 때때로 의견은 실제로는 단지 ... 논평입니다. 그것은 힌트로 암시되었지만 해결되지 않은 중요한 질문을 (유머러스하게 의도 된) 강조하려고했습니다. 이것을 개인적 또는 공격으로 인식하게되어 유감입니다. BTW, 이것은 이다 진짜 질문은 : 그것은 요청 빈도주의 방법론에 "사전 지식"... 통합하는 방법? 이 질문은 ume의 귀납적 추론에 대한 비판을 불러 일으키고 과학 철학과 통계의 기초에 관한 문제에 관한 것입니다. 조심스럽게 생각할 가치가 있습니다!
whuber

귀하의 평판 중 상당 부분이 귀하의 답변에 대한 본인의 투표로 인한 것임을 지적 할 가치가 있습니다.
whuber

2
아니요, 귀하의 의견을 이해했습니다. 귀하의 의견에 대한 프랑스어 Google 번역은 이미 이상하지만, 영어 실력과 이상한 Google 번역을 결합하여 정확한 번역을 얻을 수 있습니다. 나는 다음 달에 더 긴장을 풀 것입니다.
Stéphane Laurent

0

이것은 물론 빈번한 0.05 레벨 테스트입니다. 귀무 가설은 귀무 가설 하에서 시간의 5 % 미만으로 기각되며 대체 하의 거듭 제곱도 큽니다.

반면에 이전의 정보에 따르면 특정 시점에서 초신성이되는 태양은 거의 가능성이 없지만 우연히 거짓말을 할 가능성이 더 높습니다.

결론 : 만화에는 실제로 아무런 문제가 없으며 믿어지지 않는 가설을 테스트하면 잘못된 발견 률이 높아진다는 것을 보여줍니다. 또한 제공된 베팅을 평가할 때 사전 정보를 고려하고 싶을 수 있습니다. 이것이 결정 분석과 함께 베이지안 후부가 그렇게 인기있는 이유입니다.


-2

제 생각에,보다 정확한 빈번한 분석은 다음과 같습니다 : H0 : 태양이 폭발하여 기계가 진실을 말하고 있습니다. H1 : 태양이 폭발하지 않고 기계가 누워 있습니다.

여기서 p 값은 = P (sun exploded)입니다. p (기계가 진실을 말하고 있음) = 0.97. P (태양 폭발)

통계학자는 두 번째 확률의 본질을 모르면 아무것도 결론을 내릴 수 없습니다.

별과 같은 태양은 초신성으로 폭발하지 않기 때문에 P (태양 폭발)가 0이라는 것을 알고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.