답변:
공정한 동전을 가정하면 10000 머리와 10000 꼬리의 결과는 실제로 10093 머리와 9907 꼬리의 결과보다 더 높습니다.
그러나 실제 실험자가 같은 수의 머리와 꼬리를 얻지 못할 것이라고 말하면 암묵적으로 베이 즈 정리를 호출하게됩니다. 실제 실험에 대한 당신의 이전의 믿음은 Prob (20000 토스에서 Nos of Heads = 10000 | Prob (Experimenter가 가짜가 아닙니다 | 관찰 된 10000 헤드의 결과)에 대한 사후도 0에 가깝습니다. 따라서 실험자가 데이터를 가짜라고 결론을 내립니다.
저는 Srikant의 설명이 마음에 들며 베이지안 아이디어는 아마도 이와 같은 문제에 접근하는 가장 좋은 방법이라고 생각합니다. 그러나 Bayes없이 그것을 볼 수있는 또 다른 방법이 있습니다 : (R)
dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)
내 시스템에서 약 31.2입니다. 다시 말해, 두 경우 모두 공정한 동전을 사용하더라도 20,000 개 중 10,000 개를 보는 것보다 20 개 중 10 개를 볼 가능성이 30 배 이상 높습니다. 이 비율은 샘플 크기가 증가함에 따라 제한없이 증가합니다.
이것은 일종의 우도 비율 접근법이지만, 다시 한 번 내 직감에서는 이것이 무엇보다 베이지안 판단 호출처럼 느껴집니다.
주관 베이지안 인수는 실질적으로 당신이 당신의 이해에 대해 갈 수있다 (통계적인 관점에서) 유일한 방법입니다 직관 제대로 말하기 - - a의 대상이며, 심리적 인 조사가 아닌 통계를. 그러나 베이지안 접근 방식을 사용하여 조사자가 데이터를 위조했다고 주장하는 것은 특허 적으로 불공평하며 따라서 무효입니다. 이것의 논리가 완벽하게 원형입니다 : 그것은 말에 내려 오는 "결과에 대한 내 이전의 신념에 따라, 당신의 결과는 놀라운 발견, 따라서 당신은 해야한다 속임했다." 그러한 비논리적 인 자기 서빙 주장은 분명히 법정이나 동료 검토 과정에서 일어나지 않을 것입니다.
대신에, 우리는 Ronald Fisher의 Mendel 실험에 대한 비판을 받아 공식적인 가설 테스트를 수행 할 수있었습니다. 물론 결과에 따라 사후 가설 을 테스트하는 것은 유효하지 않습니다 . 그러나 실험은 믿기 위해 반복되어야한다. 그것은 과학적 방법의 교리이다. 따라서 위조 된 것으로 생각되는 하나의 결과를 보았 으면 미래 (또는 추가) 결과 를 테스트하기위한 적절한 가설을 세울 수 있습니다 . 이 경우 임계 영역은 예상에 매우 가까운 일련의 결과로 구성됩니다. 예를 들어, 에서 테스트= 5 % 수준은 9,996과 10,004 사이의 모든 결과를 용의자로 간주합니다. (a)이 컬렉션은 가정 된 "가짜"결과에 가깝고 (b) 가짜 가 없다는 귀무 가설 아래 (법정에서 유죄가 입증 될 때까지 결백합니다!) 이 범위의 결과는 5 % (실제로 5.07426 %)의 확률로 발생합니다. 또한 관측 된 비율과 예상 비율 사이의 편차를 제곱 한 다음 네이 먼-피어슨 (Neyman-Pearson) 렘마 를 단일 테일 테스트에서 호출하여 카이 제곱 컨텍스트 (라 피셔) 에이 겉보기 임시 접근 방식을 적용 할 수 있습니다 . 낮은 꼬리와 이항 분포에 정규 근사를 적용합니다 .
그러한 테스트는 위조를 입증 할 수 없지만 직감만으로도 근거가없고지지 할 수없는 가정을 만들지 않고 실험자의 미래 보고서에 적용하여 주장의 신뢰성을 평가할 수 있습니다 . 이것은 완벽하게 결백하고 아주 운이 좋지 않은 사람들을 암시하여 아름다운 실험 결과를 얻도록 베이지안 주장을 불러내는 것보다 훨씬 공정하고 엄격합니다!
직감에 결함이 있다고 생각합니다. 하나의 "매우 특별한"결과 (정확히 10000 헤드)와 많은 결과 세트 (10000에 가까운 모든 "특별하지 않은"헤드 수)를 암시 적으로 비교하는 것 같습니다. 그러나 "특별"의 정의는 우리의 심리학에 따라 임의의 선택입니다. 바이너리 10000000000000 (십진 8192) 또는 16 진수 ABC (십진 2748)는 어떻습니까? Joris Meys가 언급했듯이 Bayes의 주장은 본질적으로 단일 수의 헤드에 대해 동일하므로 각 결과가 의심 스러울 것입니다.
인수를 조금 확장하려면 : 가설을 테스트하고 ( "실험자가 속임수") 테스트 통계 (두수)를 선택합니다. 자,이 검정 통계량은 귀하의 가설에 대해 설명하기에 적합합니까? 나에게, 선택한 테스트 통계가 유익하지 않은 것 같습니다 (가설에서 고정 값으로 지정된 매개 변수의 기능이 아님). 이것은 "속임수"의 의미에 대한 질문으로 되돌아갑니다. 그것이 실험자가 의도적으로 동전을 제어한다는 것을 의미한다면, 이것은 테스트 통계에 반영되지 않습니다. 계량 가능한 지표를 찾으려면 더 정확해야하므로 질문을 통계 테스트에 적용 할 수 있다고 생각합니다.
당신이 그리는 결론은 부정 행위의 가능성에 대해 선택한 우선 순위와 플리퍼가 거짓말을 할 때 x 헤드가보고되는 사전 확률에 따라 매우 달라집니다.
P (10000 헤드보고)에 가장 많은 질량을 넣는 것은 제 생각에는 직관적이지 않습니다. 기자가 순진한 경우를 제외하고는 (원래 게시물에서 언급 한 이유로 대부분의 사람들에게 너무 의심스러운) 위조 된 데이터를보고하는 사람을 상상할 수 없습니다. 동전이 실제로 불공평하고 플리퍼 가보고 해야하는 경우 위조 된 데이터 인 경우보고 된 결과에 앞서보다 합리적이고 (매우 근사한) 정수 {9900, ..., 10100}에 대해 P (X 헤드보고 됨) = 1/201 이전의 이산 적 균일 한 것으로 생각합니다. 다른 모든 x에 대해 P (x보고 된 헤드) = 0. 거짓말의 사전 확률이 0.5라고 생각한다고 가정하십시오. 그런 다음 몇 가지 사후 확률은 다음과 같습니다.
P (lying | 9900 헤드가보고 됨) = P (lying | 10100 헤드가보고 됨) = 0.70;
P (lying | 9950 헤드가보고 됨) = P (lying | 10050 헤드가보고 됨) = 0.54;
P (거짓말 1 만 마리보고 됨) = 0.47.
공정한 동전에서 가장 합리적인 수의보고 된 헤드가 의심됩니다. 사후 확률이 귀하의 사전에 얼마나 민감한 지 보여주기 위해, 부정 행위의 사전 확률이 0.10으로 낮아지면 사후 확률은 다음과 같습니다.
P (lying | 9900 헤드가보고 됨) = P (lying | 10100 헤드가보고 됨) = 0.21;
P (lying | 9950 헤드가보고 됨) = P (lying | 10050 헤드가보고 됨) = 0.11;
P (거짓말 1 만 마리보고 됨) = 0.09.
그래서 나는 원래의 (그리고 높은 등급의 답변)이 조금 확장 될 수 있다고 생각합니다. 사전 정보를 철저히 고려하지 않고 데이터가 위조되었다고 결론 내려서는 안됩니다. 또한 이것을 직관적으로 생각하면 거짓말의 후반 확률은 플리퍼가 거짓말을 한 것으로보고 된 머리의 사전 분배보다는 거짓말의 사전 확률에 의해 더 영향을받을 것 같습니다 내 예에서와 같이 플리퍼가 누워 있다고 가정하면 적은 수의 머리에 질량이 표시됩니다.)