베이지안 통계를 가르치기위한 간단한 실제 사례?


10

베이지안 통계를 가르치기위한 "실제 사례"를 찾고 싶습니다. 베이지안 통계를 통해 사전 지식을 공식적으로 분석에 통합 할 수 있습니다. 학생들에게 사전 지식을 분석에 통합 한 간단한 실제 사례를 학생들에게 제공하여 학생들이 왜 베이지안 통계를 사용하고 싶은지에 대한 동기를 더 잘 이해할 수 있도록하고 싶습니다.

연구원들이 사전 정보를 공식적으로 통합 한 인구 평균, 비율, 회귀 등을 추정하는 것과 같은 간단한 실제 사례를 알고 있습니까? 베이지 안에서도 "정보가없는"사전을 사용할 수 있다는 것을 알고 있지만, 특히 사전 정보 (예 : 실제 사전 정보)가 사용되는 실제 예에 관심이 있습니다.


IQ가 좋은 예라고 생각합니다.
hejseb

엄밀한 답은 아니지만 동전을 세 번 뒤집어 놓고 머리가 두 번 나오면 아무도 머리를 꼬리보다 두 배나 믿지 않을 것입니다.
Bernhard

1
: 당신은 진정으로 당신에 의해 쓰여진이 답변, 확인하실 수 있습니다 stats.stackexchange.com/a/134385/61496
Yair Daon

잦은 확률 / 추정에 적용 할 수있는 베이 즈 규칙과 "확률"이 믿음의 요약 인 베이 즈 통계를 좁히고 있습니까?
AdamO

답변:


6

베이지안 검색 이론 은 바다에서 잃어버린 선박을 검색하기 위해 여러 번 적용되어 온 베이지안 통계의 흥미로운 실제 적용입니다. 시작하기 위해지도는 사각형으로 나뉩니다. 각 정사각형에는 마지막으로 알려진 위치, 방향, 누락 된 시간, 전류 등을 기준으로 손실 된 선박을 포함 할 수있는 사전 확률이 할당됩니다. 또한 각 정사각형에 따라 실제로 해당 정사각형에있는 선박을 찾는 조건부 확률이 할당됩니다. 수심과 같은 것들. 이러한 분포는 긍정적 인 결과를 낼 가능성이 가장 높은지도 사각형의 우선 순위를 정하기 위해 결합됩니다. 반드시 배가 될 가능성이 가장 높지는 않지만 실제로 배를 찾을 가능성이 가장 높습니다.


1
좋은 것은 이것들이 재미있는 책 The 죽지 않을 이론 : Bayes 'Rule이 어떻게 수수께끼 코드를 깨뜨 렸는지, 러시아 잠수함을 사냥하고, 그리고 2 세기에 걸친 논쟁에서 나온 승리의 승리자에 설명 된 일종의 응용들 입니다. 또한 튜링은 이런 종류의 추론을 사용하여 수수께끼를 해독했습니다.
jpmuc

확률론이지만 베이지안인가?
Andrew

5

전통적인 설명을 통해 일련 번호를 사용하여 생산 또는 인구 규모를 추정하는 것은 흥미로운 일이라고 생각합니다. 여기서는 불연속 균일 분포의 최대를 시도하고 있습니다. 이전의 선택에 따라 최대 가능성과 베이지안 추정치는 매우 투명한 방식으로 달라집니다.

아마도 가장 유명한 예는 제 2 차 세계 대전 중 독일의 탱크 생산량을 탱크 일련 번호 대역과 (Rushles and Brodie, 1947)에 의해 빈번한 설정에서 수행 한 제조업체 코드로부터 추정하는 것입니다. 유익한 선행을 가진 베이지안 관점에서의 대안 적 분석은 (Downey, 2013)에 의해 이루어졌으며, 부적절한 비 정보 적 선행은 (Höhle and Held, 2004)에 의해 수행되었다. (Höhle and Held, 2004)의 연구는 또한 문헌에서 이전 치료에 대한 더 많은 참고 문헌을 포함하고 있으며이 사이트에서이 문제에 대한 더 많은 논의가 있습니다.

출처 :

3 장 다우니 Bayes : Python의 베이지안 통계를 생각해보십시오. "O'Reilly Media, Inc.", 2013 년.

위키 백과

Ruggles, R .; Brodie, H. (1947). "제 2 차 세계 대전의 경제 정보에 대한 경험적 접근". 미국 통계 협회 저널. 42 (237) : 72.

Höhle, Michael 및 Leonhard Held. 모집단의 크기에 대한 베이지안 추정. 토론 논문 // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

Wiley의 Spatio -Temporal Data에 대한 Cressie & Wickle Statistics 에는 1968 년에 잃어버린 잠수함 USS Scorpion의 (베이지안) 검색에 대한 좋은 이야기가 있습니다 . 우리는이 이야기를 학생들에게 알려주고 시뮬레이터를 사용하여 검색) .

잃어버린 비행 MH370의 이야기를 중심으로 유사한 예제를 만들 수 있습니다. Springer-Verlag의 MH370 검색 에서 Davey et al., Bayesian Methods 를 볼 수 있습니다 .


1

다음은 정규 연속 데이터에서 평균 를 추정하는 예입니다 . 그러나 예제를 직접 살펴보기 전에 Normal-Normal Bayesian 데이터 모델의 일부 수학을 검토하고 싶습니다.θ

표시되는 n 개의 연속 값으로 구성된 임의의 샘플을 고려하십시오 . 여기서 벡터 는 수집 된 데이터를 나타냅니다. 알려진 분산과 독립적이고 동일하게 분포 된 (iid) 표본이있는 정규 데이터의 확률 모델은 다음과 같습니다.y1,...,yny=(y1,...,yn)T

y1,...,yn|θN(θ,σ2)

또는 베이지 안에서보다 일반적으로 쓴 것처럼

y1,...,yn|θN(θ,τ)

여기서 ; 는 정밀도로 알려져 있습니다τ=1/σ2τ

이 표기법으로 의 밀도 는yi

f(yi|θ,τ)=(τ2π)×exp(τ(yiθ)2/2)

고전 통계 (즉, 최대 가능성)는 의 추정치입니다.θ^=y¯

베이지안 관점에서, 우리는 사전 정보와 함께 최대한의 가능성을 추가합니다. 이 정규 데이터 모델에 대한 우선 순위 선택은 대한 또 다른 정규 분포입니다 . 정규 분포는 정규 분포와 결합 됩니다.θ

θN(a,1/b)

이 정규 정규 (다수의 대수 이후) 데이터 모델에서 구한 사후 분포는 또 다른 정규 분포입니다.

θ|yN(bb+nτa+nτb+nτy¯,1b+nτ)

후방 정밀도는 과 평균 사이의 가중 평균이다 및 , 입니다.b+nτay¯bb+nτa+nτb+nτy¯

이 베이지안 방법론의 유용성은 는 고정 된 (알 수없는) 값이 아닌 임의의 변수로 간주되므로 추정값이 아닌 입니다. 또한 이 모형에서 예상되는 는 경험적 평균과 이전 정보 사이의 가중 평균입니다.θ|yθθ

즉, 이제 일반 데이터 교과서 예제를 사용하여이를 설명 할 수 있습니다. airqualityR 내의 데이터 세트를 사용하겠습니다. 평균 풍속 (MPH) 추정 문제를 고려하십시오.

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

여기에 이미지 설명을 입력하십시오

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

여기에 이미지 설명을 입력하십시오

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

이 분석에서 연구원 (귀하)은 50 % 백분위 수를 사용하는 평균 바람의 추정치 인 데이터 + 사전 정보에서 단순히 데이터의 평균을 사용하는 것보다 속도가 10.00324 여야한다고 말할 수 있습니다. 또한 2.5 및 97.5 Quantile을 사용하여 95 % 신뢰할 수있는 구간을 추출 할 수있는 전체 분포를 얻습니다.

아래에는 두 가지 참고 문헌이 포함되어 있으므로 Casella의 짧은 논문을 읽는 것이 좋습니다. 구체적으로 실험적인 Bayes 방법을 목표로하지만 Normal 모델의 일반적인 Bayesian 방법을 설명합니다.

참고 문헌 :

  1. Casella, G. (1985). 경험적 베이 즈 데이터 분석 소개. 미국 통계 학자, 39 (2), 83-87.

  2. Gelman, A. (2004). 베이지안 데이터 분석 (제 2 판, 통계학의 텍스트). 보카 레이턴, Fla .: 채프먼 & 홀 / CRC.


1

베이지안 방법이 반드시 필요하다고 생각되는 연구 분야는 최적의 디자인입니다.

로지스틱 회귀 분석 설정에서 연구원은 계수를 추정하려고 시도하고 데이터를 능동적으로 수집하고 있으며 때로는 한 번에 하나의 데이터 포인트를 수집합니다. 연구원은 의 입력 값을 선택할 수 있습니다 . 목표는 주어진 표본 크기에 대해 학습 된 정보를 최대화하는 것입니다 (또는 일정 수준의 확실성에 도달하는 데 필요한 표본 크기를 최소화 함). 주어진 대해이 문제를 최적화 하는 값 세트가 있음을 보여줄 수 있습니다 .xβx

여기서 catch-22는 최적의 를 선택하려면 를 알아야한다는 것 입니다. 분명히, 당신이 모르는 또는 당신에 대해 배울 수집 데이터를 필요가 없을 것 . 당신은 할 수 단지 MLE의 선택하는 데 사용하는 하지만,xβββx

  • 이것은 시작점을 제공하지 않습니다. 위한 , 정의되지n=0β^

  • 여러 샘플을 취한 후에도 Hauck-Donner 효과는 가 정의되지 않을 확률이 긍정적 이라는 것을 의미합니다 (이 문제에서 10의 샘플조차도 매우 일반적입니다)β^

  • MLE이 유한 한 후에도 믿을 수 없을 정도로 불안정하여 많은 샘플을 낭비합니다 (예 : 이지만 인 경우 이면 최적 의 값을 선택합니다 , 그러나 그렇지 않기 때문에 매우 차선 적 인 발생합니다 ). β=1β^=5xβ=5x

  • 이것은 의 불확실성을 고려하지 않습니다β

(아마도 더 오래된) Frequentist 문헌은 이러한 많은 문제를 매우 임시적인 방식으로 처리하고 차선책으로 다음과 같은 최적의 솔루션을 제공합니다. " 0과 1로 이어질 것으로 생각 되는 영역을 선택 하고 MLE이 정의 된 다음 MLE을 사용하여 " 를 선택하십시오 .xx

베이지안 분석은 이전부터 시작 하여 현재 지식이 주어진 에 대해 가장 유익한 를 찾고 수렴까지 반복합니다.xβ

이것은 데이터없이 시작 하고 를 선택하기 위해 에 대한 정보 가 필요한 문제이므로 Bayesian 방법이 필요하다는 것은 부인할 수 없다고 생각합니다. Frequentist 방법조차도 이전 정보를 사용하도록 지시합니다. 베이지안 방법은 훨씬 더 효율적이고 논리적으로 정당화됩니다.βx

또한 Frequentist 방법으로 제공되는 데이터를 분석하는 것이 합리적이지만 이전을 무시하는 것은 베이지안 방법을 사용하여 다음 를 선택하는 것에 대해 논쟁하기가 매우 어렵습니다 .x


1

나는 최근 에이 질문에 대해 생각하고 있었고, 베이지안이 의미가있는 사전 예 : 임상 시험의 가능성 비율을 사용하는 예가 있다고 생각합니다.

예를 들면 다음과 같습니다. 매일 연습 조건에서 소변 딥 슬라이드의 유효성 (Family Practice 2003; 20 : 410-2). 아이디어는 소변 dipslide의 긍정적 인 결과가 소변 감염의 진단에 어떤 영향을 미치는지 확인하는 것입니다. 긍정적 결과의 가능성 비율은 다음과 같습니다.

LR(+)=test+|H+test+|H=Sensibility1specificity
과 소변 감염의 가설 및 없이 소변 감염. 베이 즈가 우리에게 말하는 것은H+H

OR(+|test+)=LR(+)×OR(+)
여기서 은 승산 비입니다. 는 검사가 양성임을 알고 소변 감염이있는 홀수 비율이며 , 이전 홀수 비율은 입니다.OROR(+|test+)OR(+)

이 기사는 이고 입니다.LR(+)=12.2LR()=0.29

여기서 사전 지식은 테스트를하기 전에 잠재적으로 아픈 사람의 임상 분석에 기초하여 소변 감염이있을 확률입니다. 의사가이 확률이 관측치에 기초하여 것으로 추정 하면 양성 테스트는 및 의 포스트 확률로 이어집니다. 검사가 음성 인 경우P + | t e s t + = 0.96 p + | t의 전자 t - = 0.37p+=2/3p+|test+=0.96p+|test=0.37

이 검사는 감염을 탐지하는 데 좋지만 감염을 폐기하는 것은 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.