베이지안은 분포를 어떻게 비교합니까?


24

그래서 나는 잦은 확률과 통계 분석의 기초 (그리고 그것이 얼마나 나쁜지를 사용할 수 있는지)를 알 수 있다고 생각합니다. 빈번한 세계에서는 분포가 실제적이고 객관적이며 변경되지 않은 것으로 가정하기 때문에 (적어도 주어진 상황에서는),이 분포와 해당 분포가 다르다는 질문을하는 것이 합리적입니다. 한 샘플이 다른 샘플과 같은 분포에서 추출 될 가능성이 얼마나되는지 알아보십시오.

베이지안 세계관에서, 우리는 무엇을 걱정하는 우리는 (나는 아직도이 부분에 조금 애매 해요,하지만 난 베이지안 업데이트의 개념을 이해) 우리의 과거 경험을 제공, 볼 것으로 예상. 그렇다면, 베이지 안에서 "이 데이터 세트가 해당 데이터 세트와 다르다"고 어떻게 말할 수 있습니까?

이 질문의 목적 상, 나는 통계적 유의성 또는 그와 유사한 차이에 대해서는 신경 쓰지 않습니다. 모수 분포와 비모수 분포에 똑같이 관심이 있습니다.


"이 데이터 세트가 해당 데이터 세트와 다릅니다"라는 의미를 명확하게 설명해 주시겠습니까? 에서와 같이, 남자의 소득 대 여자의 소득과 같은 둘 이상의 그룹의 비교를 언급하고 있습니까? 아니면 베이지안은 성별에 대한 지식없이 어떻게 소득의 두 표본을 비교합니까?
ramhiser

2
@ JohnA.Ramey : 차이점은 무엇입니까? 모두 숫자가되면 "male"과 "female"은 단지 샘플 레이블이 아닌가?
naught101

답변:


12

당신의 진술을 빈번하게 생각하고 더 구체적으로 만드십시오. 자주 사용하는 사람은 더 이상의 설명없이 "데이터 세트 A가 데이터 세트 B와 다르다"고 말할 수 없습니다.

먼저, "다른"이라는 말의 의미를 설명해야합니다. 아마도 당신은 "다른 평균값을 가짐"을 의미 할 것입니다. 다시 "다양한 차이가 있음"을 의미 할 수 있습니다. 아니면 다른 것?

그런 다음 어떤 종류의 테스트를 사용해야하는지 설명해야합니다. 데이터에 대한 유효한 가정이 무엇인지에 따라 다릅니다. 데이터 세트가 일부 평균에 대해 정상적으로 분포되어 있다고 가정합니까? 아니면 둘 다 베타 배포판이라고 생각하십니까? 또는 다른 것?

이제 두 번째 결정이 베이지안 통계의 이전 결정과 매우 흡사하다는 것을 알 수 있습니까? 그것은 단지 "내 과거 경험"이 아니라 오히려 내가 믿는 것, 동료들이 믿을 것이라고 믿는 것은 내 데이터에 대한 합리적인 가정입니다. (그리고 베이지안은 일관된 우선 순위를 사용할 수 있으며, 이로 인해 빈번한 계산이 진행됩니다.)

편집 : 귀하의 의견에 따라 다음 단계는 내가 언급 한 첫 번째 결정에 포함됩니다. 두 그룹의 평균이 다른지 여부를 결정하려면 두 그룹의 평균 차이의 분포를보고 어느 정도의 신뢰 수준에서이 분포에 0이 포함되어 있는지 여부를 확인하십시오. 정확히 0에 가까울수록 0으로 계산되며 사용하는 (후방) 분포의 어느 부분이 정확하게 당신과 원하는 신뢰 수준에 의해 결정됩니다.

이러한 아이디어에 대한 논의는 Kruschke의 논문에서 찾을 수 있습니다.이 책 은 307-309 페이지의 "다른 그룹이 같습니까?"페이지의 예를 다루는 매우 읽기 쉬운 책 Doing Bayesian Data Analysis를 썼습니다 . (제 2 판 : p. 468-472) 또한 주제에 관한 블로그 게시물이 있으며 일부 Q & A가 있습니다.

추가 편집 : 베이지안 프로세스에 대한 설명도 정확하지 않습니다. 베이지안은 우리가 데이터와 독립적으로 알고있는 것에 비추어 데이터가 우리에게 알려주는 것에 만 관심이 있습니다. (Kruschke가 지적한 바와 같이, 이전은 반드시 데이터 이전에 반드시 발생하는 것은 아닙니다. 이것이 문구가 암시하는 것이지만 실제로는 일부 데이터를 배제한 지식 일뿐입니다.) 특정 데이터 세트와 독립적으로 알고있는 것은 모호하거나 구체적 일 수 있습니다. 기본 데이터 생성 프로세스의 모델 인 컨센서스를 기반으로하거나 다른 (필수적인 것은 아님) 실험의 결과 일 수 있습니다.


그렇습니다. 빈번한 사람들은 분배를 가정하고 주관적입니다. 그러나 그들은 각 표본의 매개 변수를 오차로 측정 할 수 있습니다. "이것은 각 표본의 실제 모집단의 매개 변수입니다. 이제 차이는 표본 추출 오류로 인한 확률"입니다. 내 질문은 단계에 관한 한 후 샘플 사이 베이지안 추론의 차이 (하자가 샘플이 동일한에서 있다고 가정 할 방법 - 당신의 대답 유형 유통, 파라 메트릭 여부의)을.
naught101 2016 년

@ naught101 : 내 편집 내용을 참조하십시오.
Wayne

@ 웨인은 당신이 연결 한 논문이 훌륭합니다. 공유해 주셔서 감사합니다
Cam.Davidson.Pilon

@ naught101 : 블로그 링크를 업데이트했습니다. 그는 기사의 이전 버전과 각 링크를 최신 버전으로 유지했으며, 내가 처음 연결 한 버전은 최신 버전이 아닙니다.
Wayne

이것은 매우 멋진 방법이며, 분포 모수를 불확실성의 원인으로 취급함으로써 베이지안 추론이 어떻게 작동하는지 명확하게 알 수 있습니다. 안타깝게도 계산 집약적입니다. 또한 95 % CI를 사용하는 것은 중요도 수준을 설정하는 것과 너무 비슷해 보이지만 p- 값에 해당하는보고 가능한 값을 얻을 수있는 실제 방법이 있는지 알 수 없습니다 (아마도 값의 확률의 합 더) 평균의 차이가 평균보다 0보다 높습니까?).
naught101 2016 년

14

이 백서가 흥미로울 수 있습니다 : http://arxiv.org/pdf/0906.4032v1.pdf

두 가지 샘플 문제에 대한 빈번한 접근과 베이지안 접근 방법을 요약하고 모수 적 사례와 비모수 적 사례를 모두 설명합니다.

간단한 대답을 위해 다른 답변에 무언가를 추가 할 수 있습니다. 각 x i 및 각 y j0 또는 1 인 두 개의 데이터 세트 y 가 있다고 가정하십시오 . 두 경우 모두 iid Bernoulli 모형을 가정하므로 각 x i ~ B e r n ( p ) 및 각 y i ~ B e r n ( q ) 입니다. 상용주의 및 베이지안 설정 모두 에서 가설 검정 시나리오는 다음과 같습니다.xyxiyj01xiBern(p)yiBern(q)

H0:p=q

가 반드시 같을 필요는 없습니다.H1:p,q

각 경우의 데이터에 대한 가능성은 다음과 같습니다.

아래 : L 0 ( P ) = F ( X , Y , P ) = Π I P I ( 1 - P ) (1) - I Π J P J ( 1 - P ) 1 - JH0L0(p)=f(x,y;p)=ipi(1p)1ijpj(1p)1j

하에서 : L 1 ( p , q ) = f ( x , y ; p , q ) = i p i ( 1 - p ) 1 - ij q j ( 1 - q ) 1 - jH1L1(p,q)=f(x,y;p,q)=ipi(1p)1ijqj(1q)1j

( H 0 이하부터 ). 문제에 대한 빈번한 접근 방식은 우도 비율 검정을 수행하여 통계를 계산하는 것입니다.H0q=p

W=2log{L0(pmax)L1(pmax,qmax)},

여기서 나타내고 최대 우도 추정 PQ 관련 가설 하에서가 (따라서 P는 m X 분자에가 동일하지 않을 수 P는 m X 분모). Wχ 2 1 분포를 점진적으로 따르 므로 (예 : Pawitan, 2001 참조) 유의 수준을 지정하고 H 0 을 적절하게 기각하기 위해 기각 / 실패합니다 .pmax,qmaxpqpmaxpmaxWχ12H0

pπ0H0p,qπ1H1

.BF=f(x,y|H0)f(x,y|H1)=01L0(p)π0(p)dp0101L1(p,q)π1(p,q)dpdq

H0H1H0H1 p(H0)=p(H1)=1/2

p(H0|x,y)p(H1|x,y)=BF×p(H0)p(H1)=BF×1/21/2=BF.

>1H0H1H0

H1

희망은 이미 게시 된 다른 답변과 함께 도움이됩니다.


0

데이터가 주어지면 두 그룹이 같은 인구에서 온 것이 아니라고 얼마나 강력하게 믿습니까 (H_1 : 같은 인구에서 온 것이 아니라 H_0 : 같은 인구에서 온 것). 이것은 베이지안 t- 검정으로 수행 할 수 있습니다.

복잡성은 사전이 하나의 가설과 얼마나 겹치는지를 파악하는 데 사용됩니다. 적합은 사후가 하나의 가설과 겹치는 정도를 파악하는 데 사용됩니다. 종합하면 가설을 비교하고 동일한 집단에서 온 것인지 아닌지에 대한 사후 신념을 표현할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.