베타 배포의 직관은 무엇입니까?


438

면책 조항 : 저는 통계학자가 아니라 소프트웨어 엔지니어입니다. 통계에 대한 나의 지식의 대부분은 자기 교육에서 나온 것이므로 다른 사람들에게는 사소한 것처럼 보일 수있는 개념을 이해하는 데 여전히 많은 격차가 있습니다. 답변에 덜 구체적인 용어와 자세한 설명이 포함되어 있다면 매우 감사하겠습니다. 할머니와 대화하고 있다고 상상해보십시오. :)

베타 배포본질 을 파악하려고 노력 중입니다. 베타 배포의 목적과 각 경우에 해석하는 방법. 우리가 정규 분포에 대해 이야기하고 있다면, 기차의 도착 시간으로 설명 할 수 있습니다. 평균에서 20 분. 균일 분포는 특히 각 티켓의 추첨 기회를 나타냅니다. 이항 분포는 코인 플립 등으로 설명 할 수 있습니다. 그러나 베타 배포에 대한 직관적 인 설명 이 있습니까?

α=.99\ beta = .5 라고합시다 β=.5. 이 경우 베타 분포 B(α,β) 는 다음과 같습니다 (R에서 생성됨).

여기에 이미지 설명을 입력하십시오

그러나 실제로 무엇을 의미합니까? Y 축은 분명히 확률 밀도이지만 X 축에는 무엇이 있습니까?

이 예제 또는 다른 설명을 통해 어떤 설명이라도 대단히 감사하겠습니다.


13
y 축은 확률이 아닙니다 (확실히 말해서 확률은 간격을 벗어날 수는 없지만이 플롯은 최대 까지 확장 되며 원칙적으로 확장됩니다 ). 그것은 확률 밀도입니다 : 단위 당 확률입니다 (그리고 당신은 를 비율로 묘사 했습니다). [0,1]50xx
whuber

4
@ whuber : 예, PDF가 무엇인지 이해합니다. 제 설명에서는 실수였습니다. 유효한 메모 주셔서 감사합니다!
ffriend

1
참고 문헌을 찾으려고하지만 형식의 일반화 된 베타 배포판에 대한 더 기괴한 모양 중 일부는 물리학과 같은 응용 프로그램이 있습니다. 또한 데이터가 열악한 환경에서 전문가 데이터 (최소, 모드, 최대)에 맞출 수 있으며 삼각 분포 (IE에서 자주 사용하는)를 사용하는 것보다 낫습니다. a+(ba)Beta(α1,α2)
SecretAgentMan

철도 회사 Deutsche Bahn과 함께 여행 한 적이 없습니다. 낙관적이지 않을 것입니다.
헤닝

답변:


621

짧은 버전은 베타 분포 가 확률 분포를 나타내는 것으로 이해 될 수 있다는 것입니다. 즉, 확률이 무엇인지 모를 때 가능한 모든 확률 값을 나타냅니다. 여기에 내가 가장 좋아하는 직관적 인 설명이 있습니다.

야구를 따르는 사람은 타율에 친숙 합니다. 플레이어가 기본 타격을하는 횟수 를 타석에 올린 횟수로 나눈 것입니다 (따라서 0와 사이의 비율 1). .266일반적으로 평균 타율 .300로 간주되는 반면 우수한 타율 로 간주됩니다.

야구 선수가 있다고 가정하고 시즌 전반의 타격 평균이 얼마인지 예측하려고합니다. 당신은 우리가 지금까지 그의 타율을 사용할 수 있다고 말할 수 있습니다. 그러나 이것은 시즌이 시작될 때 매우 좋지 않습니다! 만약 한 선수가 한 번의 타자로 올라가고 싱글을 얻는다면, 그의 타율은 짧고 1.000, 파업하면 그의 타율은 0.000입니다. 당신이 행운의 승리를 얻을 수 times- 박쥐 대여섯까지 가서 평균 얻을 수 있다면 그것은 훨씬 더하지 않는 1.000, 또는 불운 행진을하고 평균을 얻는 0방법을 원격으로 좋은 예측 인자이다 어느 것도, 당신은 그 계절에 타를 것입니다.

처음 몇 번의 타격에서 타율이 최종 타율을 예측하는 데 왜 좋지 않습니까? 플레이어의 첫 타수가 파업 인 경우, 왜 아무도 시즌 내내 타격을받지 않을 것이라고 예상하지 않습니까? 우리는 사전에 기대하기 때문에 . 우리는 역사상 한 시즌 동안의 대부분의 타율이와 .215와 같은 사이를 맴돌았다는 사실을 알고 .360있습니다. 플레이어가 시작시 연속으로 몇 번의 경고를 받으면 평균보다 약간 더 나빠질 수 있지만 그 범위에서 벗어나지 않을 것입니다.

이항 분포 (일련의 성공 및 실패) 로 표현 될 수있는 타격 평균 문제를 고려할 때 이러한 사전 예상치를 나타내는 가장 좋은 방법 (통계에서 사전에 부르는 것 )은 베타 분포를 사용하는 것입니다. 플레이어가 첫 스윙을하는 것을보기 전에, 우리는 대략 그의 타격 평균을 기대합니다. 베타 분포의 영역은 (0, 1)확률과 마찬가지로, 우리가 이미 올바른 방향으로 가고 있다는 것을 알고 있지만이 작업에 대한 베타의 적합성은 그 이상입니다.

우리는 선수의 시즌 평균 타율이 거의 주위 .27에 있을 것으로 예상 하지만, .21~에 이르기까지 합리적 일 수 .35있습니다. 이는 매개 변수가 및 베타 분포로 표시 될 수 있습니다 .α=81β=219

curve(dbeta(x, 81, 219))

베타 (81, 219)

나는 두 가지 이유로 이러한 매개 변수를 생각해 냈습니다.

  • 평균은αα+β=8181+219=.270
  • 그림에서 볼 수 있듯이이 분포는 거의 전적으로 (.2, .35)타율에 대한 합리적인 범위 내에 있습니다 .

베타 분포 밀도 플롯에서 x 축이 무엇을 나타내는 지 물었습니다. 여기에서 그의 타격 평균을 나타냅니다. 따라서이 경우 y 축은 확률 일뿐만 아니라 x 축도 마찬가지입니다 (공격 평균은 타격의 확률 일뿐입니다). 베타 분포는 확률의 확률 분포 나타냅니다 .

그러나 베타 배포판이 적합한 이유는 다음과 같습니다. 플레이어가 한 번의 타격을받는다고 상상해보십시오. 시즌에 대한 그의 기록은 지금 1 hit; 1 at bat이다. 그런 다음 확률 을 업데이트 해야합니다 . 새로운 정보를 반영하기 위해이 전체 곡선을 조금만 이동하려고합니다. 이것을 증명하는 수학은 약간 복잡하지만 ( 여기에 표시됨) 결과는 매우 간단 합니다. 새로운 베타 배포판은 다음과 같습니다.

Beta(α0+hits,β0+misses)

여기서 및 은 우리가 시작한 매개 변수, 즉 81과 219입니다. 따라서이 경우 는 1 씩 증가하고 (한 번의 히트), 는 전혀 증가하지 않았습니다 (아직 누락되지 않음) ). 이는 새 배포가 또는α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

여기에 이미지 설명을 입력하십시오

거의 변경되지 않았 음을 알 수 있습니다. 그 변경은 실제로 육안으로 볼 수 없습니다! 한 번의 타격이 실제로 아무 의미가 없기 때문입니다.

그러나 시즌 중에 플레이어가 더 많은 타격을가할수록 새로운 증거를 수용하기 위해 곡선이 더 많이 이동하고, 더 많은 증거가 있다는 사실에 따라 더 좁아집니다. 시즌 중반까지 그가 300 번 타율을 기록했고 그중 100 번을 쳤다고합시다. 새 배포는 또는Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

여기에 이미지 설명을 입력하십시오

플레이어의 타격 평균이 무엇인지 더 잘 이해할 수있게 되었기 때문에 커브가 더 얇고 오른쪽 (높은 타격 평균)으로 이동했습니다.

이 공식의 가장 흥미로운 결과 중 하나는 결과 베타 분포의 예상 값이며 기본적으로 새로운 추정치입니다. 베타 분포의 예상 값은 입니다. 따라서 300 번의 실제 타율에 100 회 성공한 후 새로운 베타 분포의 예상 값은 순진한 추정치보다 낮습니다. of 이지만 시즌을 시작한 예상치보다 (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270). 이 공식은 선수의 명중과 명중 횟수에 "헤드 스타트"를 추가하는 것과 같다는 것을 알 수 있습니다. "시즌에는 81 명중과 219 명중으로 기록을 시작하십시오." ).

따라서, 베타 분포는 확률 분포를 나타내는 가장 적합한 확률 - 우리는 확률이 사전에 무엇인지 모르는 경우가 있지만, 우리는 몇 가지 합리적인 추측이있다.


5
@ffriend : 도움이되어 기뻤습니다. 야구를 따라 가기를 바랍니다 (그렇지 않으면 이해할 수 있을지 궁금합니다!)
David Robinson

11
다음은 리뷰 수가 다른 이진 Amazon 판매자 순위를 사용하는 John Cook의 유사한 예입니다. 코멘트에 이전 선택의 논의는 특히 조명된다 johndcook.com/blog/2011/09/27/bayesian-amazon/#comments을
Dimitriy V. Masterov

4
이전에 베타 배포 할 필요가 없음을 지적해야합니다 (Jeffreys 이전의 하지 않는 한 – 가능성 만 베타 배포되어야 함)α0=β0=1/2
Neil G

4
+ 더 많은 데이터가있을 때 배포판을 업데이트하는 방법에 대한 설명이 마음에 듭니다.
Mike Dunlavey가

2
@ user27997 이들은 평균 .27의 평균과 타격 평균 (약 .025)에 대해 매우 현실적인 표준 편차를 제공했습니다. 덧붙여, 내가 원하는 평균과 분산에서 α와 β를 계산하는 방법에 대한 설명 제공 여기를 .
David Robinson

48

베타 분포는 0과 같은 1, 제한된 범위를 가지고 일을 모델링하는 데 사용됩니다.

예는 성공 및 실패와 같은 두 가지 결과 만 갖는 실험에서 성공할 확률입니다. 제한된 수의 실험을 수행하고 일부 실험이 성공한 경우 베타 배포로 알려주는 내용을 나타낼 수 있습니다.

또 다른 예는 주문 통계 입니다. 예를 들어, 여러 개의 (4) 균일 한 0.1 난수를 생성하고 정렬하면 세 번째 분포는 무엇입니까?

샘플링을 통해 소프트웨어 성능 진단을 이해하는 데 사용합니다. 당신이 무작위로 프로그램을 중지하면 시간을, 그리고 그 시간의 당신은 당신이 실제로 제거 할 수있는 일을보고, 시간의 다음 부분은 그렇게함으로써 구원에 의해 표현된다 이고 속도 향상 요소에는 BetaPrime 분포가 있습니다.nss>1Beta(s+1,(ns)+1)

그것에 대해 더 많은 ...


41

베타 분포는 에서 독립적 인 균일 분포의 무작위 표본에 대한 순서 통계로도 나타납니다 .(0,1)

정확하게 , , 은 각각 에 균일 분포를 갖는 독립적 인 랜덤 변수가되게하십시오 . 넣어야 , , 랜덤 샘플의 순서 통계 , 값 정렬에 의해 정의 , , 승순한다. 특히 및 입니다. 그러면 마다 있습니다.U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

이 결과는 베타 분포가 자연스럽게 수학에 나타나고 수학에 흥미로운 응용이 있음을 보여줍니다.


28

두 가지 주요 동기가 있습니다.

첫째, 베타 분포는 베르누이 분포 이전에 공액이다. 즉, 동전 뒤집기를 반복하여 추정하는 동전의 편향과 같은 알 수없는 확률이 있으면 동전 뒤집기 시퀀스에 의해 알 수없는 편향에 대해 유발 될 가능성이 베타 분포됩니다.

둘째, 지수 분포 인 베타 분포의 결과는 그것이 충분한 통계 세트에 대한 최대 엔트로피 분포라는 것이다. 베타 배포의 경우 이러한 통계는 에서 에 대한 및 입니다 . 즉 샘플 세트에 대해 이러한 충분한 통계의 평균 측정 값 만 유지하는 경우 샘플 분포에 대한 최소 가정은 베타 분포라는 것입니다.log(x)log(1x)x[0,1]x1,,xn

베타 배포는 일반적으로 [0,1] 이상의 항목을 모델링하는 데 특별하지 않습니다. 많은 배포가 해당 지원으로 잘릴 수 있고 많은 경우 더 적용 가능하기 때문입니다.


23

여기에 이미지 설명을 입력하십시오

일부 전자 상거래 웹 사이트의 판매자가 500 개의 평가를 받았으며 그 중 400 개는 양호하고 100 개는 나쁜 것으로 가정합니다.

우리는 이것을 길이 500의 베르누이 (Beroulli) 실험의 결과로 생각하며 400의 성공 (1 = 양호)을 가져 왔지만, 기본 확률 는 알려져 있지 않습니다.p

판매자의 평가 측면에서 순진한 품질은 0.8 = 400/500이기 때문에 80 %입니다. 그러나 우리가 모르는 등급의 "진정한"품질.

이론적으로 "진정한"품질 판매자 는 500 개의 평가 중 400 개의 상품으로 끝났을 수 있습니다.p=77%

그림의 뾰족한 막대 그림은 시뮬레이션에서 특정 가정에서 "정확한" 400 500 평가가 얼마나 자주 발생했는지를 나타냅니다 . 막대 플롯은 시뮬레이션 결과의 히스토그램 밀도입니다.p

보시다시피 및 (주황색) 베타 분포의 밀도 곡선은 막대 차트 (시뮬레이션에 대한 히스토그램의 밀도)를 밀접하게 둘러 쌉니다.α=400+1β=100+1

그래서 베타 분포는 본질적으로 베르누이 실험의 성공 확률은 확률 정의 실험의 결과를 제공합니다.p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
당신의 기여에 감사합니다! 비록 히스토그램의 전설에 베타 밀도가 표시되어 있지만 이항 시뮬레이션 의 결과 ( "시뮬레이션에서 얼마나 자주 발생하는지")를 설명한다고 주장하는 것 같습니다 . 그러나 두 그림은 그림에서 상당히 가깝게 보이지만 다른 것입니다. (이것은 이항 분포에 대한 큰 모수와 중심 한계 정리를 가진 베타의 거의 정규성의 결과입니다.)
whuber

좋은 지적입니다! 그러나 그것을 올바르게 바꾸는 방법을 모르겠습니다. 물론 히스토그램을 플로팅하면 크기에 따라 밀도가 크게 표시되지 않습니다. 예, 히스토그램은 실제로 축소 된 것이 아니라 원래 히스토그램의 (추정 된) 밀도입니다. 런의 수를 감안할 때 요인을 알아 내고 선형으로 축소 할 수는 있지만 실제로 (실제로) 비교하고 싶은 것은 베타의 밀도와 시뮬레이션 결과의 밀도입니다. 원래 히스토그램의 밀도).
Raffael

8

지금까지 답변의 우세는 샘플 비율에 대한 이전의 베타 RV 생성에 대한 이론적 근거를 다루었으며, 한 가지 영리한 답변이 베타 RV와 관련하여 통계를 주문했습니다.

베타 분포는 또한 두 감마 (k_i, 1) RV 사이의 간단한 관계에서 발생합니다. i = 1,2는 X와 Y라고합니다. X / (X + Y)에는 베타 분포가 있습니다.

감마 RV는 이미 독립 이벤트의 도착 시간 모델링에 대한 이론적 근거를 가지고 있으므로 귀하의 질문이 아니기 때문에이를 다루지 않겠습니다. 그러나 순차적으로 수행 된 두 가지 작업 중 하나를 완료하는 데 소요 된 "시간의 비율"은 자연스럽게 베타 배포에 적합합니다.


1
+1 감마를 사용하여 베타 배포판을 만드는 것에 대해 지적 해 주셔서 감사합니다. 베타를 Dirichlet으로 일반화하려면 더 많은 감마를 분모에 넣는다 고 들었습니다. 어쩌면 통계학자는 그 사실을 알고 있지만, 나에게 그것은 범주 형 관측치의 신뢰 구간을 볼 때 정말 유용했습니다.
Mike Dunlavey

4

내 직감에 따르면 현재 성공 비율 " "와 현재 실패 비율 " "둘 다 "무게" 라고합니다. 입니다. 상수는 입니다. 성공의 기여에 대해 "무게"와 같다. 실패의 기여에 대해 "무게"와 같다. 당신은 생각하고 이해하기 어렵게 만드는 2 차원 매개 변수 공간 (성공 기여와 실패 기여를위한 공간)을 가지고 있습니다.x(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβ


3

인용 된 예에서 매개 변수는 전년도의 알파 = 81 및 베타 = 219입니다.

나는 그들이 81 hits와 219 outs의 사전 가정을 무엇인지 알지 못하지만 영어로, 그것은 선험적 가정입니다.

시즌이 진행됨에 따라 곡선이 왼쪽이나 오른쪽으로 이동하고 모달 확률이 왼쪽이나 오른쪽으로 이동하지만 여전히 곡선이 있습니다.

Laa of Large Numbers가 결국 보류 상태가되어 타율이 .270으로 돌아가는지 궁금합니다.

일반적으로 알파와 베타를 추측하기 위해서는 알려진 총 타격 횟수 (알파), 베타 또는 총합에서 실패를 뺀 총 발생 횟수 (박쥐)와 총합을 얻습니다. 당신은 당신의 공식이 있습니다. 그런 다음 그림과 같이 추가 데이터를 작업하십시오.


2

베타 분포는 입자 크기 분포로 작업 할 때 매우 유용합니다. 결정립 분포를 모델링하려는 상황은 아닙니다. 이 경우 오른쪽에 묶이지 않은 Tanh 분포 하는 것이 좋습니다. F(X)=tanh((x/p)n)

그런데, 미세한 관찰로부터 크기 분포를 생성하고 입자 분포가 있고 부피 분포로 작업하는 것이 목표라면 어떻습니까? 원래 분포를 오른쪽으로 묶는 것이 거의 필수입니다. 따라서 새 볼륨 분포에서 작업중인 간격을 벗어나는 모드 나 중간 크기 또는 중간 크기가 나타나지 않기 때문에 변환이 더 일관됩니다. 또한 그린란드 아프리카 효과를 피하십시오.

구 또는 프리즘과 같은 규칙적인 모양이 있으면 변형이 매우 쉽습니다. 숫자 베타 분포의 알파 매개 변수에 3 개의 단위를 추가하고 부피 분포를 가져와야합니다.


1
사이트에 오신 것을 환영합니다. 이것은 OP의 질문에 대한 답변으로 의도 되었습니까? 이것이 베타 배포판의 직관과 어떤 관련이 있는지 명확히 할 수 있습니까?
gung

베타 배포에 대한 직관을 명확히하기 위해 편집하십시오.
Glen_b

1

베타 배포에 직관이 없다고 생각합니다! 베타 배포판은 FIX 범위의 매우 유연한 배포판입니다! 그리고 정수 a와 b에 대해서도 다루기가 쉽습니다. 또한 베타의 많은 특별한 경우는 균일 분포와 같은 고유의 의미를 갖습니다. 따라서 데이터를 이와 같이 모델링하거나 약간 더 융통성있게 모델링해야하는 경우 베타를 선택하는 것이 좋습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.