동전 뒤집기에 대한 베타 배포


12

Kruschke의 Bayesian 책에 따르면 동전을 뒤집기 위해 베타 배포판을 사용하는 것과 관련하여

예를 들어, 동전에 머리 쪽과 꼬리 쪽이 있다는 사실 외에 다른 사전 지식이 없다면, 그것은 이전에 하나의 머리와 하나의 꼬리를 관찰 한 것과 비슷하며 a = 1과 b = 1에 해당합니다.

왜 머리 하나와 꼬리 하나도 본 적이 없는가? 왜 머리 0 개와 꼬리 0 개가 더 자연스러워 보인다.


9
(+1) 인용문은 독자가 두 가지 매우 다른 "관심"감각을 동일시하도록 초대하기 때문에 오해의 소지가 있습니다. 여기서 사용 된 의미 는 코인 자체 를 검사 한 것입니다. 사실상 실험 설정을 이해한다는 의미입니다. 그러나 이것이 의미한다는 결론은 하나의 결과가 머리와 다른 꼬리 인 실험을 두 번 실행 한 다른 의미에서 "관찰"을 해석하는 것에 달려있다. 이런 종류의 논리적 손은 지적 cop-out입니다. 그것은 베이지안 방법이 임의적이고 논리적으로 미끄러운 것처럼 보이게 만듭니다. ==1
whuber

인용은 틀렸다 : 베타 (1, 1) 이전의 근거는 없다.
Neil G

하나의 관측치에 해당하는 정보, 즉 머리 절반 / 꼬리 절반이라는 정보를 쉽게 주장 할 수 있습니다.
Glen_b-복지 주 모니카

4
이 책에서 그 구절의 의도 된 목적을 명심하십시오. 그것은 적용되는 초보자를 위한 간단한 직관적 인 근거 가 될 것입니다. 분명히 수학적인 주장은 아니며, beta (1,1)이 가장 좋고 유일한 모호한 주장은 아닙니다. 이 책의 어느 곳에서나 나는 약간의 데이터가있을 때 모호한 사전의 약간의 변화가 후부에 실질적인 차이를 만들지 않음을 보여주기 위해 고통을 겪습니다. (물론 Bayes 요소를 제외하고는 이전에 매우 민감합니다!) 다른 글에서 나는 이전 Haldane에 대해 논의했습니다.
John K. Kruschke

답변:


17

이 인용문은 OP에 대한 의견에서 @whuber가 지적한 바와 같이 "논리적 손질"(훌륭한 표현!)입니다. 우리가 동전에 머리와 꼬리가 있음을 본 후에 실제로 말할 수있는 유일한 것은 "머리"와 "꼬리"이벤트가 불가능하지 않다는 것입니다. 따라서 모든 확률 질량을 "머리"또는 "꼬리"에 두는 불연속 사전을 버릴 수 있습니다. 그러나 이것은 그 자체로 균일 한 사전으로 이어지지는 않는다. 문제는 훨씬 더 미묘하다. 먼저 약간의 배경을 요약 해 봅시다. 우리는 n 개의 독립적이고 동일하게 분포 된 (조건 적으로 θ ) 코인 토스가 주어지면 코인 헤드의 확률 에 대한 베이지안 추론에 대한 베타-쌍방향 공액 모델을 고려하고 있습니다.θθ 우리가 관찰 할 때 X 에 머리를 n 개의 토스 :(θ|엑스)엑스

(θ|엑스)=이자형(엑스+α,엑스+β)

우리는 β 가 "선두 수"와 "선두 수"(의사)의 역할을 한다고 말할 수 있으며 α + β 는 효과적인 표본 크기로 해석 될 수 있습니다. 또한 사후 평균에 대한 잘 알려진 표현을 이전 평균 α 의 가중 평균으로 사용하여이 해석에 도달 할 수 있습니다.αβα+β 및 표본 평균xαα+β .엑스

보면 , 우리는 두 가지 고려 사항을 할 수 있습니다 :(θ|엑스)

  1. 우리는 (최대 무지) 에 대한 사전 지식이 없기 때문에 유효 샘플 크기 α + β 가 "작은" 것으로 직관적으로 예상합니다 . 그것이 크다면, 이전의 지식은 상당히 많은 지식을 통합했을 것입니다. 이것을 보는 또 다른 방법은 xn - x에 대해 αβ 가 "작은" 이라면 , 사후 확률은 우리의 이전에 크게 의존하지 않을 것입니다. 왜냐하면 x + α xn - x + β n xθα+βαβ엑스엑스엑스+α엑스엑스+β엑스. 많은 지식을 포함하지 않는 이전의 데이터는 일부 데이터에 비추어 볼 때 빠르게 관련이 없어야합니다.
  2. 또한 이전의 평균이며, 우리의 분포에 대한 사전 지식이없는 θ, 우리가 기대μPRIOR=0.5. 이것은 대칭의 논증입니다. 만약 우리가 더 잘 모른다면 분포가 0 또는 1로 치우친다는선험을기대하지 않을 것입니다. 베타 분포는μ아르 자형나는영형아르 자형=αα+βθμ아르 자형나는영형아르 자형=0.5

    에프(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα1(1θ)β1

    이 식은 α = β 인 경우 주위에서만 대칭 입니다.θ=0.5α=β

이 두 가지 이유 때문에, 우리가 사용하기로 선택한 이전 (베타 패밀리-기억, 켤레 모델!)에 관계없이, 우리는 직관적으로 이고 c 는 "작다"고 예상합니다 . Beta-Binomial 모델에 대해 일반적으로 사용되는 비 정보 적 선례 3 가지가 모두 이러한 특성을 공유하지만 그 이외의 특성은 상당히 다르다는 것을 알 수 있습니다. 그리고 이것은 명백합니다 : 사전 지식이나 "최대 무지"는 과학적 정의가 아니므로 어떤 종류의 사전이 "최대 무지"를 표현하는지, 즉 비 정보적인 사전은 어떤 것이 "최대"로 의미하는지에 달려 있습니다. 무지".α=β=

  1. 우리는 더 잘 알지 못하기 때문에 에 대한 모든 값 이 동등 하다는 사전을 선택할 수 있습니다 . 다시 한 번 대칭 주장. 이는 α = β = 1에 해당합니다 .θα=β=1

    에프(θ|1,1)=Γ(2)2Γ(1)θ0(1θ)0=1

    위한 , 즉, 균일 한 이전에 사용 Kruschke. 보다 공식적으로 베타 분포의 차분 엔트로피에 대한 식을 작성하면 α = β = 1 일 때 최대화되는 것을 알 수 있습니다 . 이제 엔트로피는 종종 분포에 의해 운반되는 "정보량"의 척도로 해석됩니다. 높은 엔트로피는 적은 정보에 해당합니다. 따라서이 최대 엔트로피 원리를 사용하여 베타 제품군 내에서 정보가 적은 선행 (최대 무지)이이 균일 한 이전이라고 말할 수 있습니다.θ[0,1]α=β=1

  2. OP가 사용하는 다른 관점을 선택할 수 있으며, 머리와 꼬리가없는 정보는 해당되지 않습니다.

    α=β=0π(θ)θ1(1θ)1

    우리가이 방법을 얻기 전에는 Haldane prior 라고합니다 . 함수 조금 문제가있다 -를 통해 적분 I는 = [ 0 , 1 ] 즉, 상관없이 정규화 상수가 적절한 PDF로 변환되지 않을 수없는 무한하다. 실제로, 홀 데인 전에 적절한이다 PMF , 풋 옵션의 확률에 0.5 θ = 0 에서 0.5 θ = 1 에 대한 모든 다른 값에 0 확률 θ는θ1(1θ)1나는=[0,1]θ=0θ=1θ. 그러나 연속 매개 변수 경우 적절한 pdf에 해당하지 않는 사전을 부적절한 사전 이라고합니다.θ . 이전에 언급했듯이 베이지안 추론의 모든 문제는 사후 분포이므로 사후 분포가 적절하다면 부적절한 사전이 허용됩니다. 이전의 Haldane의 경우, 샘플에 적어도 하나의 성공과 하나의 실패가 포함 된 경우 후방 pdf가 적절 함을 증명할 수 있습니다. 따라서 우리는 적어도 하나의 머리와 꼬리를 관찰 할 때 이전에 Haldane 만 사용할 수 있습니다.

    이전의 Haldane이 정보가없는 것으로 간주 될 수있는 또 다른 의미가 있습니다. 사후 분포의 평균은 이제 , 즉 헤드의 샘플 주파수는 코인 플립 문제의 이항 모델에 대한θ의 잦은 MLE 추정치입니다 . 또한θ의 신뢰할 수있는 구간은 Wald 신뢰 구간에 해당합니다. 잦은 방법은 사전을 명시하지 않기 때문에, Haldane의 사전은 정보가 없거나 사전 지식이없는 것으로 말할 수있다. 이는 잦은 사람들이 할 수있는 "동일한"추론으로 이어지기 때문이다.α+엑스α+β+=엑스θθ

  3. 마지막으로 문제의 매개 변수화에 의존하지 않는 선행, 즉 베타-이항 모델에 해당하는 Jeffreys 이전을 사용할 수 있습니다.

    α=β=12π(θ)θ12(1θ)12

    따라서 Jeffreys는 이전에 매개 변수 공간을 다시 매개 변수화 할 때 변하지 않는다는 이점이 있습니다. 예를 들어, 균일 한 우선 순위는 이벤트 "head"의 확률 인 모든 값에 동일한 확률을 할당합니다 . 그러나 log-odds λ = l o g ( θ의 관점에서이 모델을 매개 변수화하기로 결정할 수 있습니다.θ이벤트 "머리"대신보다의θ. log-odds로 "최대 무지"를 나타내는, 즉 "head"이벤트에 대해 가능한 모든 log-odd가 동등하다고 말하는 것은 무엇입니까? 이 (약간 비밀스러운)답변에서 볼 수 있듯이 이전의 Haldane입니다. 대신 Jeffreys는 모든 메트릭 변경에서 변하지 않습니다. Jeffreys는이 속성이없는 이전 버전은 문제를 매개 변수화하는 데 사용 된 메트릭에 대한 정보가 포함되어 있기 때문에 어느 정도 유익한 정보라고 설명했습니다. 그의 이전은 그렇지 않습니다.λ=영형(θ1θ)θ

요약하면, Beta-Binomial 모델에서 정보가없는 정보를 선택하는 데는 분명한 선택이 없습니다. 선택하는 것은 사전 지식이 없다는 의미와 분석 목표에 따라 다릅니다.


0

(θ=0)=0(θ=1)=0θ(θ)=이자형(h+1,(h)+1)


귀하의 답변을 이해하는 데 어려움을 겪고 있습니다.
Michael R. Chernick

θ=0θ=1
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.