다음은 정규 연속 데이터에서 평균 를 추정하는 예입니다 . 그러나 예제를 직접 살펴보기 전에 Normal-Normal Bayesian 데이터 모델의 일부 수학을 검토하고 싶습니다.θ
표시되는 n 개의 연속 값으로 구성된 임의의 샘플을 고려하십시오 . 여기서 벡터 는 수집 된 데이터를 나타냅니다. 알려진 분산과 독립적이고 동일하게 분포 된 (iid) 표본이있는 정규 데이터의 확률 모델은 다음과 같습니다.y1,...,yny=(y1,...,yn)T
y1,...,yn|θ∼N(θ,σ2)
또는 베이지 안에서보다 일반적으로 쓴 것처럼
y1,...,yn|θ∼N(θ,τ)
여기서 ; 는 정밀도로 알려져 있습니다τ=1/σ2τ
이 표기법으로 의 밀도 는yi
f(yi|θ,τ)=(√τ2π)×exp(−τ(yi−θ)2/2)
고전 통계 (즉, 최대 가능성)는 의 추정치입니다.θ^=y¯
베이지안 관점에서, 우리는 사전 정보와 함께 최대한의 가능성을 추가합니다. 이 정규 데이터 모델에 대한 우선 순위 선택은 대한 또 다른 정규 분포입니다 . 정규 분포는 정규 분포와 결합 됩니다.θ
θ∼N(a,1/b)
이 정규 정규 (다수의 대수 이후) 데이터 모델에서 구한 사후 분포는 또 다른 정규 분포입니다.
θ|y∼N(bb+nτa+nτb+nτy¯,1b+nτ)
후방 정밀도는 과 평균 사이의 가중 평균이다 및 , 입니다.b+nτay¯bb+nτa+nτb+nτy¯
이 베이지안 방법론의 유용성은 는 고정 된 (알 수없는) 값이 아닌 임의의 변수로 간주되므로 추정값이 아닌 입니다. 또한 이 모형에서 예상되는 는 경험적 평균과 이전 정보 사이의 가중 평균입니다.θ|yθθ
즉, 이제 일반 데이터 교과서 예제를 사용하여이를 설명 할 수 있습니다. airquality
R 내의 데이터 세트를 사용하겠습니다. 평균 풍속 (MPH) 추정 문제를 고려하십시오.
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
이 분석에서 연구원 (귀하)은 50 % 백분위 수를 사용하는 평균 바람의 추정치 인 데이터 + 사전 정보에서 단순히 데이터의 평균을 사용하는 것보다 속도가 10.00324 여야한다고 말할 수 있습니다. 또한 2.5 및 97.5 Quantile을 사용하여 95 % 신뢰할 수있는 구간을 추출 할 수있는 전체 분포를 얻습니다.
아래에는 두 가지 참고 문헌이 포함되어 있으므로 Casella의 짧은 논문을 읽는 것이 좋습니다. 구체적으로 실험적인 Bayes 방법을 목표로하지만 Normal 모델의 일반적인 Bayesian 방법을 설명합니다.
참고 문헌 :
Casella, G. (1985). 경험적 베이 즈 데이터 분석 소개. 미국 통계 학자, 39 (2), 83-87.
Gelman, A. (2004). 베이지안 데이터 분석 (제 2 판, 통계학의 텍스트). 보카 레이턴, Fla .: 채프먼 & 홀 / CRC.