베타 분포 밀도 기능에 -1이있는 이유는 무엇입니까?


18

베타 분포는 두 가지 매개 변수로 표시됩니다 (또는 여기 ).

f ( x ) x α ( 1 x ) β

f(x)xα(1x)β(1)

또는 더 일반적으로 사용되는 것

f ( x ) x α - 1 ( 1 x ) β - 1

f(x)xα1(1x)β1(2)

그러나 왜 두 번째 공식에 정확히 " "이 있습니까?11

첫 번째 공식은 직관적 으로 이항 분포에 더 직접적으로 일치하는 것으로 보입니다.

g ( k ) p k ( 1 - p ) n - k

g(k)pk(1p)nk(3)

그러나 의 관점 에서 "보았다"p . 이것은 특히 분명하다 베타 이항 모델 A와 이해 될 수있다 이전 성공의 수와 A는 이전의 실패 수입니다.ααββ

그래서 정확히 두 번째 양식 게인 인기했고, 무엇을 왜 근거 배후는? 모수화 중 하나를 사용하면 어떤 결과발생 합니까 (예 : 이항 분포와 관련하여)?

누군가가 그러한 선택의 기원과 그것에 대한 초기 주장을 추가로 지적 할 수 있다면 좋을 것입니다.


3
깊은 이유는에 암시되어 이 답변 : f는f 동일 X α ( 1 - X ) βxα(1x)β 측정을 기준으로 D μ = D X / ( ( X ( 1 - X ) )dμ=dx/((x(1x)) . 그 이유는 특정 조치 "에 질문을 감소 "?이 측정 값이 d μ = d ( log ( x1 - X는 ))
dμ=d(log(x1x))
"는 : 물류 변환을 적용하는 것입니다 이러한 분포를 이해하는"올바른 "방법을 제안-11"용어가 사라됩니다.
whuber

1
나는 그것이 실제로 일어난 이유는 역사적인 이유라고 생각합니다. 왜냐하면 그것은 배포판의 이름이 붙은 베타 기능 에서 그런 방식으로 나타나기 때문 입니다. 그 이유에 관해서는 - (1) 전원에서, 나는 (역사적으로는 측정 또는 확률과 아무 상관이 있지만) 그 궁극적으로 언급 whuber 이유에 연결 될 것으로 예상된다. 1
Glen_b-복지 주 모니카

2
@Glen_b 역사적 이상의 것입니다. 심오한 이유가 있습니다. 베타와 감마 함수 사이의 밀접한 관련성 때문에 Γ ( s ) = 0 t s - 1 e - t d t 의 지수 가 s - 1이 아닌 s - 1 인 이유에 대한 질문이 줄어 듭니다 . 때문이다 Γ는 가우스 합이다 . 마찬가지로, Γ 를 곱하기 동질성의 적분 t t s 곱하기 특성 의 적분 으로 보는 것이 " 올바르다 "Γ(s)=0ts1etdts1sΓΓtts곱하기 그룹 R × 에서 Haar 측정 d t / t 에대해 t e - t . tetdt/tR×
whuber

1
@wh 그것이 감마 함수가 그런 식으로 선택되어야하는 좋은 이유입니다. (그리고 나는 이미 그러한 이유가 존재한다고 제안했고, 그와 비슷한 어떤 형태의 추론을 받아들입니다. 상응하는 매력적인 이유는 밀도와 함께 발생합니다. 그러나 이것이 실제로 선택의 이유 (형태가 그대로 선택 된 이유)가 아니라는 것이 확실한 이유는 아닙니다. 감마 함수의 형태 ... ctd
Glen_b -Reinstate Monica

1
ctd ...만으로는 밀도와 다른 사람들이 따라 올 수있는 형식을 선택하기에 충분한 이유가 될 수 있습니다. [종종 우리가 나중에 식별 할 수있는 더 단순한 이유 때문에 선택이 이루어지며 종종 다른 일을하기 위해 설득력있는 이유가 필요합니다. 그것은 처음에 선택한 이유를 우리는했다 아십니까] - 우리가 이유가 있다는 것을 명확하게 설명 해야한다 오히려 왜보다, 그 방법이있을 밀도를 선택할 수 있다 그런 식으로. 여기에는 일련의 사람들이 선택을하고 (그러한 방식으로 사용하고 따라야한다), 선택한 당시의 이유가 포함된다.
Glen_b-복지 주 모니카

답변:


9

이것은 자유 도와 통계 매개 변수에 대한 이야기이며 두 사람이 직접 간단한 연결을 갖는 것이 좋은 이유입니다.

역사적으로 " - 1 "용어는 베타 기능의 오일러의 연구에서 나타났다. 그는 1763 년까지 그 매개 변수화를 사용했고 Adrien-Marie Legendre도 사용했습니다. 이 작업은 모든 알려진 통계 응용 프로그램을 방해합니다.1

"현대 수학 이론은 것으로, 분석, 정수론, 기하학의 응용 프로그램의 재산을 통해 충분한 표시를 제공합니다 - 1 "용어가 실제로 어떤 의미를 가지고있다. 나는 그 이유 중 일부를 질문에 대한 의견으로 스케치했다.1

"올바른"통계 매개 변수가 무엇인지 더 관심이 있습니다. 그것은 분명하지 않으며 수학 규칙과 같을 필요는 없습니다. 일반적으로 사용되고 잘 알려진 상호 관련된 확률 분포 제품군이 있습니다. 따라서 한 패밀리의 이름을 지정 (즉, 매개 변수화)하는 데 사용되는 규칙은 일반적으로 관련 패밀리의 이름을 지정하는 관련 규칙을 암시합니다. 하나의 매개 변수를 변경하면 모든 매개 변수를 변경하려고합니다. 그러므로 우리는 단서에 대한 이러한 관계를 볼 수 있습니다.

가장 중요한 분배 가족이 일반 가족으로부터 파생된다는 데 동의하지 않는 사람은 거의 없습니다. 리콜 랜덤 변수 것을 X는 것으로 알려져 "통상 분산"때 ( X - μ ) / σ 확률 밀도 갖는다 F ( X ) 에 비례 특급 ( - X 2 / 2 ) . 경우 σ는 = 1μ = 0 , X는 가지고 있다고 표준 정규 분포.X(Xμ)/σf(x)exp(x2/2)σ=1μ=0X

많은 데이터 세트 x 1 , x 2 , , x n 은 데이터와 저전력 (일반적으로 제곱)의 합리적인 조합을 포함하는 비교적 간단한 통계를 사용하여 연구됩니다. 해당 데이터가 정규 분포의 랜덤 표본으로 모델링되어 각 x i 가 정규 변수 X i 의 실현으로 간주 될 때 모든 X i 는 공통 분포를 공유하며 독립적입니다. 이러한 통계 분포 정규 분포에 의해 결정됩니다. 실제로 가장 자주 발생하는 것은x1,x2,,xnxiXiXi

  1. t ν , ν = n - 1 "자유도"를갖는스튜던트 t 분포. 이것은 통계량 t = ˉ X 의 분포입니다tνtν=n1se ( X ) 여기서 ˉ X =(X1+X2++Xn)/n은 데이터의 평균을 모델링하고se(X)=(1/

    t=X¯se(X)
    X¯=(X1+X2++Xn)/nn )( X 2 1 + X 2 2 + + X 2 n ) / ( n - 1 ) ˉ X 2 는 평균의 표준 오차입니다. 으로 나누기N-1 개방송N이어야2이상, 어디서ν는정수이며1이상이다. 공식은 약간 복잡하지만 공식 2 차 데이터의 합리적인 함수의 제곱근입니다. 비교적 간단합니다.se(X)=(1/n)(X21+X22++X2n)/(n1)X¯2n1n2ν1
  2. χ 2 ν , χ 2 (카이 제곱) 분포 ν "자유도"(DF). 이 제곱의 합의 분포 ν 독립적 인 표준 정규 변수. 이러한 변수들의 제곱의 평균의 분포 따라서 것이다 χ 2 분포에 의해 스케일링 1 / ν : I는 "정규화"으로이를 참조한다 χ 2 분포.χ2νχ2ννχ21/νχ2

  3. F는 ν 1 , ν 2 , F의 파라미터를 가지는 비 분포 ( ν 1 , ν 2 ) 두 개의 독립적 인 정규화의 비율 χ (2) 와 분배 ν 1 ν 2 개 자유도.Fν1,ν2F(ν1,ν2)χ2ν1ν2

수학적 계산은이 세 분포 모두 밀도가 있음을 보여줍니다. 중요하게, χ 2 ν 분포 의 밀도 는 감마 ( Γ ) 함수 에 대한 오일러의 완전한 정의에서 정수와 비례한다 . 그것들을 비교해 봅시다 :χ2νΓ

F χ 2 ν ( 2 X ) α X ν / 2 - 1 개 전자 - X ;f Γ ( ν ) ( x ) x ν - 1 e - x .

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

이는 χ 2 ν 변수의 두 배에 ν / 2 매개 변수가있는 감마 분포가 있음을 나타냅니다 . 1/2의 요소는 충분히 귀찮지 만 1 을 빼면 관계가 훨씬 악화됩니다. 이것은 이미 질문에 대한 설득력있는 답을 제공합니다 : 우리는의 매개 변수를 원하는 경우 χ 2 분포를 (배까지를 생산 제곱 일반 변수의 수 계산 (1) / 2 , 밀도 함수 필요 후 지수) 그 수의 절반보다 적은 숫자이어야합니다. χ2νν/21χ21/2

왜의 요인 1 / 2 의 차이보다 귀찮은 일이 ? 그 이유는 우리가 추가 할 때 그 요소가 일관성을 유지하기 때문입니다. n 개의 독립 표준 법선 의 제곱합이 매개 변수 n 을 갖는 감마 분포에 비례하고 (일부 인자), m 개의 독립 표준 법선 의 제곱합은 매개 변수 m 을 갖는 감마 분포에 비례합니다 (동일한 계수) 모든 n + m 변수 의 제곱의 합은 모수 m + n (여전히 같은 요인) 을 갖는 감마 분포에 비례합니다 . 1/21nnmmn+mm+n매개 변수를 추가하면 카운트 추가를 모방하는 것이 매우 도움이됩니다.

If, however, we were to remove that pesky-looking "11" from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of xx in the formula, so that a χ21χ21 distribution would be related to a "Gamma(0)(0)" distribution (since the power of xx in its PDF is 11=011=0), then the sum of three χ21χ21 distributions would have to be called a "Gamma(2)(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the 11 from the formula and absorbing it in the parameter.

Similarly, the probability function of an FF ratio distribution is closely related to Beta distributions. Indeed, when YY has an FF ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2)Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2)(ν1/2,ν2/2) distribution. Its density function is proportional to

fZ(z)zν1/21(1z)ν2/21.

fZ(z)zν1/21(1z)ν2/21.

Furthermore--taking these ideas full circle--the square of a Student tt distribution with νν d.f. has an FF ratio distribution with parameters (1,ν)(1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.

From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of ΓΓ and Beta distributions: we should prefer calling a Γ(α)Γ(α) distribution a "Γ(2α)Γ(2α) distribution" and the Beta(α,β)(α,β) distribution ought to be called a "Beta(2α,2β)(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "FF Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "11" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.


1
Thanks for your answer (I +1d already). I have just a small follow-up question: maybe I'm missing something, but aren't we sacrificing the direct relation with binomial by using the -1 parametrization?
Tim

I'm not sure which "direct relation with binomial" you're referring to, Tim. For instance, when the Beta(a,b)(a,b) distribution is used as a conjugate prior for a Binomial sample, clearly the parameters are exactly the right ones to use: you add aa (not a1a1) to the number of successes and bb (not b1b1) to the number of failures.
whuber

1

The notation is misleading you. There is a "hidden 11" in your formula (1)(1), because in (1)(1), αα and ββ must be bigger than 11 (the second link you provided in your question says this explicitly). The αα's and ββ's in the two formulas are not the same parameters; they have different ranges: in (1)(1), α,β>1α,β>1, and in (2)(2), α,β>0α,β>0. These ranges for αα and ββ are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1)(1) the case α=1α=1 (or less) and β=0β=0, then try to integrate the (kernel of the) density between 00 and 11. Equivalently, try the same in (2)(2) for α=0α=0 (or less) and β=1β=1.


2
The issue of a range of definition for αα and ββ seems to go away when the integral is interpreted, as Pochhammer did in 1890, as a specific contour integral. In that case it can be equated to an expression that determines an analytic function for all values of αα and ββ--including all complex ones. This throws light on the concern in the question: why exactly has this specific parameterization been adopted, given there are many other possible parameterizations that seem like they might serve equally well?
whuber

1
To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).
Zen

2
Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?
Tim

1
Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.
whuber

1
Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for α,β>0α,β>0, if UGamma(α,1)UGamma(α,1) and VGamma(β,1)VGamma(β,1) are independent, then X=U/(U+V)X=U/(U+V) is Beta(α,β)Beta(α,β), and the density of XX is proportional to xα1(1x)β1xα1(1x)β1. But then you can question the parameterization of the gamma distribution...
Zen

0

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial x!x!. Since it is not possible to compute x!x! directly if xx is not integer, the idea was to find a function for any x0x0 that satisfies the recurrence relation defined by the factorial, namely

f(1)=1f(x+1)=xf(x).f(1)=1f(x+1)=xf(x).

Solution was by means of the convergence of an integral. For the function defined as

f(x+1)=0txexdt,f(x+1)=0txexdt,

integration by parts provides the following:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: f(1)=1f(1)=1 and f(x+1)=xf(x)f(x+1)=xf(x). We have Γ(x)=(x1)!Γ(x)=(x1)!, therefore it satisfies Γ(x+1)=xΓ(x)=x(x1)!=x!Γ(x+1)=xΓ(x)=x(x1)!=x!. In addition, we have Γ(1)=(11)!=0!=1Γ(1)=(11)!=0!=1. As for the beta distribution with parameters α,βα,β, generalisation of the Binomial coefficient is Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. There we have the -1 in the denominator, for both parameters.


This makes no sense because the recurrence function satisfied by the factorial is not what you state: (x+1)!xx!.(x+1)!xx!.
whuber

The function f(x)f(x) satisfying the recurrence relation is the Gamma: Γ(x+1)=xΓ(x)Γ(x+1)=xΓ(x). This is how it is defined.
aatr

Yes: but your stated motivation is based on the factorial function, not the Gamma.
whuber

It is important to recall the relation between Gamma and factorial: Γ(x)=(x1)!.
aatr

Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.