업데이트 : 몇 년간의 후 시점을 바탕 으로 비슷한 질문에 대한 응답으로 본질적으로 동일한 자료를 보다 간결하게 처리했습니다 .
신뢰 영역을 구성하는 방법
신뢰 영역을 구성하는 일반적인 방법으로 시작하겠습니다. 신뢰 구간 또는 구간 세트를 생성하기 위해 단일 매개 변수에 적용 할 수 있습니다. 더 큰 치수 신뢰 영역을 생성하기 위해 두 개 이상의 매개 변수에 적용 할 수 있습니다.
우리는 관찰 된 통계가 주장 D 매개 변수와 분포에서 발생 θ , 즉 샘플링 분포 s(d|θ) 가능한 통계를 통해 d , 그리고에 대한 신뢰 지역 추구 θ 가능한 값의 집합에 Θ . HDR (Highest Density Region) 정의 : PDF 의 h - HDR 은 확률 h 를 지원하는 도메인의 가장 작은 하위 집합입니다 . 나타내고 h 의 -HDR s(d|ψ) 로서 Hψ 임의 들어 ψ∈Θ . 그런 다음데이터 D 가주어지면 θ 에대한h 신뢰 영역은 세트 C D = { ϕ : D ∈ H ϕ } 입니다. h 의 일반적인 값은0.95입니다.θDCD={ϕ:D∈Hϕ}h
빈번한 해석
신뢰 영역의 이전 정의에서
C d = { ϕ : d ∈ H ϕ } 인 d∈Hψ⟷ψ∈Cd
를 따릅니다 . 이제 (대규모 세트 상상 상상 ) 관찰 { D 내가 } 와 유사한 상황에서 촬영, D를 . 즉, s ( d | θ ) 의 샘플입니다 . 사람 H θ 지지체 확률 질량 H PDF 파일에의 SCd={ϕ:d∈Hϕ}{Di}Ds(d|θ)Hθhs(d|θ) ,P(Di∈Hθ)=h 모든i . 따라서 분율{Di} 있는IS. 그리고, 위의 동등한 사용 분율있는또한.Di∈Hθh{Di}θ∈CDih
그렇다면 이것은 대한 신뢰 구간에 대한 빈번한 주장이다.hθ같습니다.
가상 관찰의 큰 숫자를 가지고 {Di} 샘플링 분포 s ( 일| θ) 관찰 된 통계에 상승 준 디 . 그런 다음, θ 는 유사하지만 상상의 신뢰 영역 { C D i } 의 분수 h 내에있다 .{ C디나는}
신뢰 지역 씨디 그러므로 확률에 대해 그 어떤 주장을하지 않습니다 θ 거짓말 어딘가에! 그 이유는 단순히 우리가 θ 에 대한 확률 분포에 대해 말할 수있는 fomulation에 아무것도 없기 때문입니다 . 해석은 단지 정교한 상부 구조이며, 기초를 향상시키지 않습니다. 밑은 s ( 일| θ) 및 디 이며, 여기서 θ 는 분배 된 수량으로 나타나지 않으며,이를 해결하기 위해 사용할 수있는 정보가 없습니다. 기본적으로 θ 대한 분포를 얻는 두 가지 방법이 있습니다 .
- 현재 정보에서 직접 분포를 지정하십시오 : p ( θ | I) .
- 연관 θ 다른 분산 수량 : p(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx .
두 경우 모두 θ 가 왼쪽 어딘가에 나타나야합니다. 빈번한 사람들은 둘 다 이단적인 선행이 필요하기 때문에 어느 방법도 사용할 수 없습니다.
베이지안보기
베이지안가로 만들 수있는 가장 h 신뢰 영역 씨디 자격없이 소정가 단순히 직접 해석 : 그것은 집합임을 ϕ 하는 디 폭포가 h -HDR Hϕ 샘플링 분포 s ( 일| ϕ) . 반드시 우리에게 θ 에 대해 많은 것을 말하지는 않으며 , 그 이유가 있습니다.
D 와 배경 정보 I가 주어진 θ ∈ C디 확률은 다음 과 같습니다.
P ( θ ∈ C D | D I )디나는피( θ ∈ C디| DI)= ∫씨디p ( θ | DI I) dθ= ∫씨디p ( D | θ I) p ( θ | I)p ( D | 나)디θ
잦은 해석과 달리 우리는θ대한 분포를 즉시 요구했습니다. 배경 정보나는샘플링 분포 즉, 이전과 같이, 우리에게s(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
이제이 식은 일반적으로h평가되지 않습니다.즉,h신뢰 영역CD항상h가있는θ가포함되는 것은 아닙니다. 실제로 그것은h와완전히 다를 수 있습니다. 이있는 많은 일반적인 상황, 그러나이있다않는로 평가시간신뢰 영역이 우리의 확률 직관과 자주 일치하는 이유입니다.hhh
예를 들어, d 와 θ 의 선행 조인트 PDF 가 pd,θ(d,θ|I)=pd,θ(θ,d|I) 에서 대칭 이라고 가정합니다 . (이것은 PDF가 d 와 θ 에서 같은 도메인에 걸쳐 있다고 가정합니다 .) 그러면, 선행이 p(θ|I)=f(θ) 이면, 우리는 s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D) . 따라서
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
HDR의 정의에서 우리는 모든ψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
따라서 주어진s(d|θ)f(θ)=s(θ|d)f(d),CD=HD암시P(θ∈CD|DI)=h. 선행자는CD=HD⟷∀ψ를만족시킨다
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
상단 근처에 동등성 적용 :
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.
Now the symmetric relation D∈Hψ↔ψ∈HD is satisfied for all ψ when s(ψ+δ|ψ)=s(D−δ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d) (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.