베이지안 확률 관점에서 95 % 신뢰 구간에 95 % 확률의 실제 모수가 포함되지 않는 이유는 무엇입니까?


14

신뢰 구간대한 Wikipedia 페이지에서 :

... 반복 된 (그리고 아마도 다른) 실험에 대한 많은 별도의 데이터 분석에서 신뢰 구간이 구성된 경우 매개 변수의 실제 값을 포함하는 이러한 구간의 비율은 신뢰 수준과 일치합니다.

그리고 같은 페이지에서 :

신뢰 구간은 모수의 실제 값이 실제로 얻은 데이터를 감안할 때 신뢰 구간에있을 확률이 있음을 예측 하지 않습니다 .

내가 올바르게 이해했다면,이 마지막 진술은 잦은 확률에 대한 해석을 염두에두고 만들어졌다. 그러나 베이지안 확률 관점에서 95 % 신뢰 구간에 95 % 확률의 실제 모수가 포함되지 않는 이유는 무엇입니까? 그렇지 않은 경우 다음과 같은 추론 에서 무엇이 잘못 되었습니까?

내가 알고있는 프로세스가 95 %의 정답을 생성하면 다음 답변이 올 확률은 0.95입니다 (프로세스에 대한 추가 정보가 없기 때문에). 마찬가지로 누군가 95 %의 실제 모수를 포함하는 프로세스에 의해 생성 된 신뢰 구간을 보여 주면 내가 아는 것을 감안할 때 0.95 확률의 실제 모수를 포함한다고 말하는 것이 옳지 않습니까?

이 질문은 95 % CI가 평균을 포함 할 확률이 95 %라는 것을 의미하지 않는 이유 와 비슷하지만 동일 하지는 않습니다. 이 질문에 대한 답은 95 % CI가 잦은 관점에서 평균을 포함 할 가능성이 95 %라는 것을 의미하지 않는 이유에 초점을 맞추고 있습니다. 내 질문은 동일하지만 베이지안 확률 관점에서.


CI를 95 %로 생각하는 한 가지 방법은 "장기 평균"입니다. 이제 "단기"사례를 분할하여 상당히 임의의 적용 범위를 확보 할 수있는 여러 가지 방법이 있습니다. 또,보다 추상적 방식으로 생성되는 xiBernoulli(pi) 에 대한 i=1,2, 되도록 i=1pi=0.95 . 이 작업을 수행 할 수있는 방법은 무한합니다. 여기에 xii 번째 데이터 세트로 작성된 CI에 매개 변수가 포함되어 있는지 여부를 표시하며, 이 경우의 적용 확률은 pi 입니다.
probabilityislogic

답변:


11

업데이트 : 몇 년간의 후 시점을 바탕 으로 비슷한 질문에 대한 응답으로 본질적으로 동일한 자료를 보다 간결하게 처리했습니다 .


신뢰 영역을 구성하는 방법

신뢰 영역을 구성하는 일반적인 방법으로 시작하겠습니다. 신뢰 구간 또는 구간 세트를 생성하기 위해 단일 매개 변수에 적용 할 수 있습니다. 더 큰 치수 신뢰 영역을 생성하기 위해 두 개 이상의 매개 변수에 적용 할 수 있습니다.

우리는 관찰 된 통계가 주장 D 매개 변수와 분포에서 발생 θ , 즉 샘플링 분포 s(d|θ) 가능한 통계를 통해 d , 그리고에 대한 신뢰 지역 추구 θ 가능한 값의 집합에 Θ . HDR (Highest Density Region) 정의 : PDF 의 h - HDR 은 확률 h 를 지원하는 도메인의 가장 작은 하위 집합입니다 . 나타내고 h 의 -HDR s(d|ψ) 로서 Hψ 임의 들어 ψΘ . 그런 다음데이터 D 가주어지면 θ 에대한h 신뢰 영역은 세트 C D = { ϕ : D H ϕ } 입니다. h 의 일반적인 값은0.95입니다.θDCD={ϕ:DHϕ}h

빈번한 해석

신뢰 영역의 이전 정의에서 C d = { ϕ : d H ϕ } 인

dHψψCd
따릅니다 . 이제 (대규모 세트 상상 상상 ) 관찰 { D 내가 } 와 유사한 상황에서 촬영, D를 . 즉, s ( d | θ ) 샘플입니다 . 사람 H θ 지지체 확률 질량 H PDF 파일에의 SCd={ϕ:dHϕ}{Di}Ds(d|θ)Hθhs(d|θ) ,P(DiHθ)=h 모든i . 따라서 분율{Di} 있는IS. 그리고, 위의 동등한 사용 분율있는또한.DiHθh{Di}θCDih

그렇다면 이것은 대한 신뢰 구간에 대한 빈번한 주장이다.hθ같습니다.

가상 관찰의 큰 숫자를 가지고 {Di} 샘플링 분포 s(d|θ) 관찰 된 통계에 상승 준 D . 그런 다음, θ 는 유사하지만 상상의 신뢰 영역 { C D i } 의 분수 h 내에있다 .{CDi}

신뢰 지역 CD 그러므로 확률에 대해 그 어떤 주장을하지 않습니다 θ 거짓말 어딘가에! 그 이유는 단순히 우리가 θ 에 대한 확률 분포에 대해 말할 수있는 fomulation에 아무것도 없기 때문입니다 . 해석은 단지 정교한 상부 구조이며, 기초를 향상시키지 않습니다. 밑은 s(d|θ)D 이며, 여기서 θ 는 분배 된 수량으로 나타나지 않으며,이를 해결하기 위해 사용할 수있는 정보가 없습니다. 기본적으로 θ 대한 분포를 얻는 두 가지 방법이 있습니다 .

  1. 현재 정보에서 직접 분포를 지정하십시오 : p(θ|I) .
  2. 연관 θ 다른 분산 수량 : p(θ|I)=p(θx|I)dx=p(θ|xI)p(x|I)dx .

두 경우 모두 θ 가 왼쪽 어딘가에 나타나야합니다. 빈번한 사람들은 둘 다 이단적인 선행이 필요하기 때문에 어느 방법도 사용할 수 없습니다.

베이지안보기

베이지안가로 만들 수있는 가장 h 신뢰 영역 CD 자격없이 소정가 단순히 직접 해석 : 그것은 집합임을 ϕ 하는 D 폭포가 h -HDR Hϕ 샘플링 분포 s(d|ϕ) . 반드시 우리에게 θ 에 대해 많은 것을 말하지는 않으며 , 그 이유가 있습니다.

D 와 배경 정보 I가 주어진 θCD 확률은 다음 과 같습니다. P ( θ C D | D I )DI

P(θCD|DI)=CDp(θ|DI)dθ=CDp(D|θI)p(θ|I)p(D|I)dθ
잦은 해석과 달리 우리는θ대한 분포를 즉시 요구했습니다. 배경 정보I샘플링 분포 즉, 이전과 같이, 우리에게s(d|θ):
P(θCD|DI)=CDs(D|θ)p(θ|I)p(D|I)dθ=CDs(D|θ)p(θ|I)dθp(D|I)i.e.P(θCD|DI)=CDs(D|θ)p(θ|I)dθs(D|θ)p(θ|I)dθ
이제이 식은 일반적으로h평가되지 않습니다.즉,h신뢰 영역CD항상h가있는θ가포함되는 것은 아닙니다. 실제로 그것은h와완전히 다를 수 있습니다. 이있는 많은 일반적인 상황, 그러나이있다않는로 평가시간신뢰 영역이 우리의 확률 직관과 자주 일치하는 이유입니다.hhh

예를 들어, dθ 의 선행 조인트 PDF 가 pd,θ(d,θ|I)=pd,θ(θ,d|I) 에서 대칭 이라고 가정합니다 . (이것은 PDF가 dθ 에서 같은 도메인에 걸쳐 있다고 가정합니다 .) 그러면, 선행이 p(θ|I)=f(θ) 이면, 우리는 s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D) . 따라서

P(θCD|DI)=CDs(θ|D)dθs(θ|D)dθi.e.P(θCD|DI)=CDs(θ|D)dθ
HDR의 정의에서 우리는 모든ψΘ
Hψs(d|ψ)dd=hand therefore thatHDs(d|D)dd=hor equivalentlyHDs(θ|D)dθ=h
따라서 주어진s(d|θ)f(θ)=s(θ|d)f(d),CD=HD암시P(θCD|DI)=h. 선행자는CD=HDψ를만족시킨다
CD=HDψ[ψCDψHD]
상단 근처에 동등성 적용 :
CD=HDψ[DHψψHD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.

Now the symmetric relation DHψψHD is satisfied for all ψ when s(ψ+δ|ψ)=s(Dδ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:

  1. s(d|θ)f(θ)=s(θ|d)f(d) (premise)
  2. ψδ[s(ψ+δ|ψ)=s(Dδ|D)] (premise)
  3. ψδ[s(ψ+δ|ψ)=s(Dδ|D)]ψ[DHψψHD]
  4. ψ[DHψψHD]
  5. ψ[DHψψHD]CD=HD
  6. CD=HD
  7. [s(d|θ)f(θ)=s(θ|d)f(d)CD=HD]P(θCD|DI)=h
  8. P(θCD|DI)=h

Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is

s(d|θ)=nσ2πen2σ2(dθ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((dθ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δψ)2)=g(δ2)ands(Dδ|D)=g((DδD)2)=g(δ2)so thatψδ[s(ψ+δ|ψ)=s(Dδ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!

We therefore have an amusing irony:

  1. The frequentist who assigns the h confidence interval cannot say that P(θCD)=h, no matter how innocently uniform θ looks before incorporating the data.
  2. The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θCD|DI)=h.

Final Remarks

We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θCD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θCD|DI) equals h. Equally though, there are many circumstances in which P(θCD|DI)h, especially when the prior information is significant.

We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.


Would it be correct to say that a Bayesian is committed to take all the available information into account, while interpretation given in the question ignored D in some sense?
qbolec

Is it a good mental picture to illustrate the situation: imagine a grayscale image, where intensity of pixel x,y is the joint ppb of real param being y and observed stat being x. In each row y, we mark pixels which have 95% mass of the row. For each observed stat x, we define CI(x) to be the set of rows which have marked pixels in column x. Now, if we choose x,y randomly then CI(x) will contain y iff x,y was marked, and mass of marked pixels is 95% for each y. So, frequentists say that keeping y fixed, chance is 95%, OP says, that not fixing y also gives 95%, and bayesians fix y and don't know
qbolec

@qbolec It is correct to say that in the Bayesian method one cannot arbitrarily ignore some information while taking account of the rest. Frequentists say that for all y the expectation of yCI(x) (as a Boolean integer) under the sampling distribution prob(x|y,I) is 0.95. The frequentist 0.95 is not a probability but an expectation.
CarbonFlambe--Reinstate Monica

6

from a Bayesian probability perspective, why doesn't a 95% confidence interval contain the true parameter with 95% probability?

Two answers to this, the first being less helpful than the second

  1. There are no confidence intervals in Bayesian statistics, so the question doesn't pertain.

  2. In Bayesian statistics, there are however credible intervals, which play a similar role to confidence intervals. If you view priors and posteriors in Bayesian statistics as quantifying the reasonable belief that a parameter takes on certain values, then the answer to your question is yes, a 95% credible interval represents an interval within which a parameter is believed to lie with 95% probability.

If I have a process that I know produces a correct answer 95% of the time then the probability of the next answer being correct is 0.95 (given that I don't have any extra information regarding the process).

yes, the process guesses a right answer with 95% probability

Similarly if someone shows me a confidence interval that is created by a process that will contain the true parameter 95% of the time, should I not be right in saying that it contains the true parameter with 0.95 probability, given what I know?

Just the same as your process, the confidence interval guesses the correct answer with 95% probability. We're back in the world of classical statistics here: before you gather the data you can say there's a 95% probability of randomly gathered data determining the bounds of the confidence interval such that the mean is within the bounds.

With your process, after you've gotten your answer, you can't say based on whatever your guess was, that the true answer is the same as your guess with 95% probability. The guess is either right or wrong.

그리고 신뢰 구간의 경우 프로세스와 동일하게 데이터를 가져오고 실제 하한과 상한을 얻은 후 평균은 해당 범위 내에 있거나 그렇지 않은 경우, 즉 평균의 가능성 그 특정 범위 내에서 1 또는 0 (데이 미끄러 중 하나입니다 당신이 참조 질문 을이이 훨씬 더 자세히 설명 보인다.)

베이지안 확률 뷰에 가입 한 경우 제공되는 신뢰 구간 해석 방법

이것을 보는 몇 가지 방법이 있습니다

  1. 기술적으로 신뢰 구간은 사전 및 베이 즈 정리를 사용하여 생성되지 않았으므로 관련 매개 변수에 대한 사전 신뢰가있는 경우 베이지안 프레임 워크에서 신뢰 구간을 해석 할 수있는 방법이 없습니다.

  2. Another widely used and respected interpretation of confidence intervals is that they provide a "plausible range" of values for the parameter (see, e.g., here). This de-emphasises the "repeated experiments" interpretation.

Moreover, under certain circumstances, notably when the prior is uninformative (doesn't tell you anything, e.g. flat), confidence intervals can produce exactly the same interval as a credible interval. In these circumstances, as a Bayesianist you could argue that had you taken the Bayesian route you would have gotten exactly the same results and you could interpret the confidence interval in the same way as a credible interval.


but for sure confidence intervals exist even if I subscribe to a bayesian view of probability, they just wont dissapear, right? :)The situation I was asking about was how to interpret a confidence interval given to you if you subscribe to a Bayesian view of probability.
Rasmus Bååth

The problem is that confidence intervals aren't produced using a Bayesian methodology. You don't start with a prior. I'll edit the post to add something which might help.
TooTone

2

I'll give you an extreme example where they are different.

Suppose I create my 95% confidence interval for a parameter θ as follows. Start by sampling the data. Then generate a random number between 0 and 1. Call this number u. If u is less than 0.95 then return the interval (,). Otherwise return the "null" interval.

Now over continued repititions, 95% of the CIs will be "all numbers" and hence contain the true value. The other 5% contain no values, hence have zero coverage. Overall, this is a useless, but technically correct 95% CI.

The Bayesian credible interval will be either 100% or 0%. Not 95%.


So is it correct to say that before seeing a confidence interval there is a 95% probability that it will contain the true parameter, but for any given confidence interval the probability that it covers the true parameter depends on the data (and our prior)? To be honest, what I'm really struggling with is how useless confidence intervals sounds (credible intervals I like on the other hand) and the fact that I never the less will have to teach them to our students next week... :/
Rasmus Bååth

This question has some more examples, plus a very good paper comparing the two approaches
probabilityislogic

1

"from a Bayesian probability perspective, why doesn't a 95% confidence interval contain the true parameter with 95% probability? "

In Bayesian Statistics the parameter is not a unknown value, it is a Distribution. There is no interval containing the "true value", for a Bayesian point of view it does not even make sense. The parameter it's a random variable, you can perfectly know the probability of that value to be between x_inf an x_max if you know the distribuition. It's just a diferent mindset about the parameters, usually Bayesians used the median or average value of the distribuition of the parameter as a "estimate". There is not a confidence interval in Bayesian Statistics, something similar is called credibility interval.

Now from a frequencist point of view, the parameter is a "Fixed Value", not a random variable, can you really obtain probability interval (a 95% one) ? Remember that it's a fixed value not a random variable with a known distribution. Thats why you past the text :"A confidence interval does not predict that the true value of the parameter has a particular probability of being in the confidence interval given the data actually obtained."

The idea of repeating the experience over and over... is not Bayesian reasoning it's a Frequencist one. Imagine a real live experiment that you can only do once in your life time, can you/should you built that confidence interval (from the classical point of view )?.

But... in real life the results could get pretty close ( Bayesian vs Frequencist), maybe thats why It could be confusing.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.