베이지안 통계에 대한 젠틀 러 접근

나는 최근 Bolstad의 "Bayesian Statistics에 대한 소개"2 판을 읽기 시작했다. 나는 주로 통계 테스트를 다루고 거의 회귀 분석 수업을 거친 입문 통계 수업을 받았습니다. 이 책에 대한 이해를 돕기 위해 어떤 다른 책을 사용할 수 있습니까?

나는 처음 100-125 페이지를 훌륭하게 만들었습니다. 그 후이 책은 가설 테스트에 대해 이야기하기 시작합니다. 가설 테스트에 대해 매우 기쁘게 생각하지만 몇 가지 사항이 있습니다.

계산에 확률 밀도 함수 사용. 다시 말해, 그러한 방정식을 평가하는 방법입니다.
이 모든 문장 : ". 우리가 파이에 대한 사전 베타 (1,1)를 사용한다고 가정 그리고 주어진 Y = 8, 후방 밀도는 베타 (9,3) 인 귀무 가설의 사후 확률은 ...."나는 믿는다 beta (1,1)은 평균이 1이고 stdev가 1 인 PDF를 나타냅니다. 사후 밀도 함수로 베타 (9,3)로 어떻게 변경되는지 알 수 없습니다.

나는 사전 대 사후 개념을 얻고 수동으로 테이블을 사용하여 적용하는 방법을 이해합니다. pi는 추정 된 인구 비율 또는 확률을 나타냅니다.

나는 매일 매일 실행되는 데이터와 이것을 연결하고 결과를 얻는 방법을 얻지 못합니다.

hypothesis-testing bayesian

— 저스틴 보조 니어
소스

매개 변수 는 컨텍스트에서 이항 모형의 모집단 확률로 나타납니다. 이 경우 베타 분포는 알려진 및 알려지지 않은 를 갖는 이항 가능성에 대한 공액 입니다. 그러나 베타 분포의 모수는 정규 분포의 경우와 마찬가지로 평균 및 표준 편차가 아닙니다. Wikipedia 페이지에서 베타 분포 변수의 관점에서 베타 랜덤 변수의 평균 및 분산 공식을 확인하십시오.

π

$\pi$

n

$n$

π

$\pi$

— caburke

감사합니다! 사전 활용은 저에게 익숙하지 않은 또 다른 용어입니다. 입문 수준에서 어디서 더 배울 수 있습니까?

— 저스틴 Bozonier

보다 실용적인 텍스트에 관심이있을 수 있습니다. 해커를위한 베이지안 방법을 보셨습니까? (공개-나는 기고하는 저자입니다) 검색해보십시오 (오픈 소스이며 무료입니다).

— Cam.Davidson.Pilon

@JustinBozonier이 링크 stats.stackexchange.com/questions/66018/… 은 켤레 사전을 포함하여 사람들이 사전을 설명하는 데 사용하는 다른 용어에 대한 설명을 제공합니다.

— Sycorax는 Reinstate Monica

@ Cam.Davidson.Pilon 감사합니다! 이 페이지의 차트에있는 신념 만 업데이트하면 다른 사람들이 말하는 내용을 더 많이 얻을 수 있습니다. nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…

— Justin Bozonier

답변:

계산에 확률 밀도 함수 사용. 다시 말해, 그러한 방정식을 평가하는 방법입니다.

나는 당신이 여전히 빈번한 관점에서 이것을 생각하고 있다고 생각합니다 : 당신이 점 추정치를 찾고 있다면, 후자는 당신에게 그것을주지 않을 것입니다. PDF를 넣고 PDF를 꺼냅니다. 사후 분포에서 통계를 계산하여 점 추정치를 도출 할 수 있지만 조금만 살펴 보겠습니다.

나는 사전 대 사후 개념을 얻고 수동으로 테이블을 사용하여 적용하는 방법을 이해합니다. pi는 추정 된 인구 비율 또는 확률을 나타냅니다.

$\pi(x)$ 는 와 동일 합니다. 둘 다 PDF입니다. 는 일반적으로 특정 PDF가 사전 밀도임을 나타내는 데 사용됩니다. $p(x)$ $\pi$

나는 당신이 생각하는 것만 큼 사전과 후부를 얻지 못한다고 생각합니다. 따라서 베이지안 통계의 기본 토대 인 주관적 확률로 다시 돌아가 봅시다 .

주관적 확률에 대한 사고 실험

동전을 선물하고이 동전이 공정한 동전이라고 생각하는지 묻습니다. 많은 사람들이 확률 클래스에서 불공평 한 동전에 대해 이야기하는 것을 들었습니다. 그러나 실제로는 실제 동전을 본 적이 없으므로 "그렇습니다. 물론 그것이 공정한 동전이라고 생각합니다." 그러나 내가 당신 에게이 질문을하고 있다는 사실은 당신을 조금 벗어납니다. 따라서 당신의 추정이 공평하다고 생각하지만, 그렇지 않다면 실제로 놀라지 않을 것입니다. 당신이 주머니에서이 동전을 발견했을 때보 다 훨씬 덜 놀랍습니다. (그것이 모두 진짜 통화라고 가정하고, 내가 의심하는 행동 때문에 지금 당장 나를 믿지 않기 때문입니다).

이제 몇 가지 실험을 진행합니다. 100 번 넘기면 동전이 53 두를 돌려줍니다. 당신은 그것이 공정한 동전이라는 것을 훨씬 더 확신하지만, 그렇지 않을 가능성에 여전히 열려 있습니다. 차이점은 이제이 동전이 일종의 편견이있는 것으로 판명되면 놀랄 것입니다.

우리는 어떻게 동전이 머리를 보여 확률에 대해 구체적으로, 여기에 귀하의 사전 및 사후 신념을 표현할 수있다 (이 우리 것 나타낸다 )? 빈번한 환경에서, 당신의 이전의 믿음, 즉 귀무 가설은 입니다. 실험을 실행 한 후에는 null을 거부 할 수 없으므로 동전이 공평하다고 가정합니다. 그러나 우리 는 동전이 공정하다는 자신감 의 변화를 어떻게 캡슐화 합니까? 실험 후 당신은 동전이 공정하다고 내기 할 위치에 있지만, 실험 전에는 어리 석었을 것입니다. $\theta$ $\theta = 0.5$

베이지안 설정에서는 확률을 스칼라 값으로 처리하지 않고 임의의 변수 (예 : 함수)로 처리하여 제안에 대한 신뢰를 캡슐화합니다. 대신 라고 말하면 PDF의 분산에 대한 신뢰를 캡슐화 할 수 있습니다. 높은 분산을 설정하면 "확률이 0.5라고 생각하지만 실제로 세계에서 관찰 할 확률이이 값에서 멀리 떨어져 있어도 놀라지 않을 것입니다. 라고 생각합니다. 하지만 솔직히 확실하지 않습니다. " 낮은 분산을 설정함으로써 우리는 "확률이 0.5라고 생각할뿐 아니라 실험이 매우 근접하지 않은 값을 제공한다면 매우 놀랄 것입니다. $\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ $\theta=0.5$ . "따라서이 예에서는 실험을 시작할 때 차이가 큰 사전이 있습니다. 이전을 뒷받침하는 데이터를받은 후 이전의 평균은 동일하게 유지되었지만 차이가 훨씬 좁아졌습니다. 실험을 실행 한 후 이전보다 가 훨씬 높습니다. $\theta=0.5$

계산은 어떻게합니까?

우리는 PDF로 시작하여 PDF로 끝납니다. 점 추정치를보고해야 할 때, 사후 분포의 평균, 중간 또는 모드와 같은 통계를 계산할 수 있습니다 (손실 기능에 따라 달라집니다. 지금은 다루지 않겠습니다. 평균을 고수합시다). PDF에 대해 닫힌 양식 솔루션이있는 경우 이러한 값을 결정하는 것이 쉽지 않을 수 있습니다. 후부가 복잡하면 MCMC와 같은 절차를 사용하여 후부에서 샘플링하고 추출한 샘플에서 통계를 도출 할 수 있습니다.

베타 이전과 이항 가능성이있는 예에서 사후 계산은 매우 깨끗한 계산으로 줄어 듭니다. 주어진:

이전 : $\theta \sim Beta(\alpha, \beta)$
가능성 : $X|\theta \sim Binomial(\theta)$

그런 다음 후부는 다음과 같이 감소합니다.

후부 : $\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

이는 베타 베타 및 이항 가능성이있을 때마다 발생하며, 이유는 DJE가 제공 한 계산에서 분명해야합니다 . 특정 사전 우도 모델이 항상 이전과 같은 종류의 분포를 갖는 사후를 제공하는 경우, 이전과 가능성에 사용 된 분포 유형 간의 관계를 Conjugate 라고 합니다. 켤레 관계 가있는 여러 분포 쌍이 있으며 , 베이지안에서는 활용을 매우 자주 활용하여 계산을 단순화합니다. 특정 가능성이 주어지면 사전에 켤레를 선택하여 인생을 훨씬 쉽게 만들 수 있습니다 (존재하는 경우 이전 선택을 정당화 할 수 있음).

베타 (1,1)은 평균이 1이고 stdev가 1 인 PDF를 참조한다고 생각합니까?

정규 분포의 공통 모수화에서 두 매개 변수는 분포의 평균 및 표준 편차를 나타냅니다. 그러나 그것은 우리가 정규 분포를 모수하는 방법입니다. 다른 확률 분포는 매우 다르게 매개 변수화됩니다.

베타 분포는 일반적으로 로 매개 변수화되며 여기서 및 는 "모양"매개 변수라고합니다. 베타 배포판은 매우 유연하며 이러한 매개 변수 설정 방법에 따라 다양한 형태를 취 합니다. 이 매개 변수화가 원래의 가정과 어떻게 다른지 설명하기 위해 베타 랜덤 변수의 평균 및 분산을 계산하는 방법은 다음과 같습니다. $Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t a (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

보다시피 알 수 있듯이 평균과 분산은이 분포의 모수화의 일부가 아니지만 입력 모수의 간단한 기능인 폐쇄 형 솔루션을 가지고 있습니다.

잘 알려진 다른 분포의 모수화의 차이점을 자세히 설명하지는 않지만 몇 가지를 찾아 보는 것이 좋습니다. 모든 기본 텍스트, 심지어 Wikipedia도 매개 변수를 변경하면 분포를 수정하는 방법을 설명해야합니다. 다른 배포판 간의 관계에 대해서도 읽어야합니다 (예 : 은 과 동일 ). $Beta(1,1)$ $Uniform(0,1)$

— 데이비드 맑스
소스

당신의 대답이 내게 준 핵심은 단일 가치를 찾는 것이 내가 끊어지고있는 곳이라는 것을 깨달았습니다. 배포의 관점에서 생각하기 시작하면 Kruschke 텍스트와 다른 모든 것이 훨씬 더 이해하기 시작했습니다. 감사합니다!

— 저스틴 Bozonier

베타 분포는 . 베타 (1,1) 분포에는 모수 있습니다. (불행히도, 이런 종류의 통계적 약식은 독자가 특정 모델이 어떻게 매개 변수화되는지를 알아야하는 부담이됩니다!) $p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

이항 가능성이있는 베타 (이진 결과 및 고정 된 성공 / 실패 가능성이있는 고정 된 횟수의 시험) 이전의 베타 버전은 접합 특성을 가지므로, 사후 (이전 및 가능성의 곱)를 닫힌 형식으로 작성할 수 있습니다.

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

본문의 특정 예에서 저자는 데이터 n = 10 및 y = 8 이전의 베타 (1,1)이 베타 (1 + 8,1 + 2) = 베타 (9,3) 후부를 생성 함을 나타냅니다. 배포 . $\theta$

이 폐쇄 형 표현은 편리하지만 꼭 필요한 것은 아닙니다. 확률 밀도를 곱하는 것은 다른 수학적 표현을 곱하는 것과 같은 방식으로 수행 될 수 있습니다. 많은 밀도의 제품이 베타 이전 / 이항 가능성만큼 쉽게 다시 작성되지 않기 때문에 어려움이 발생합니다. 운 좋게도, 이곳은 컴퓨터가 느슨해 진 것을 포착하는 곳입니다.

— Sycorax는 Reinstate Monica를 말합니다
소스

더 부드러운 접근법을 찾고 있다면 핵심 개념을 설명하기 위해 R을 사용 하는 Kruschke 의 책을 강력히 추천 할 수 있습니다 . Bayesian 통계를 배우는 데 매우 실용적이고 실용적인 접근 방식이며 그의 웹 사이트에서 사용 된 모든 코드를 찾을 수 있습니다.

누군가가 Cam.Davidson.Pilon의 글을 추천했지만 아직 보지 않았지만 여기서 찾을 수 있습니다 .

— 말년
소스

감사! 나는 실제로 Kruschke 책을 이미 소유하고 있으며 그것을 다시 검토하기 위해 되돌아 가서 그것이 바로 지금 내가 필요한 것임을 깨달았습니다. 포인터 주셔서 감사합니다!

— 저스틴 Bozonier

@JustinBozonier 또한 통계 이론 소개 (Mood)를 적극 권장 합니다. 그것은 상대적으로 높은 수준의 엄격함을 제공하지만 매우 기본적인 미적분을 알고 있다고 가정합니다.

— Steve P.