1을 초과하는 확률 분포 값이 양호 할 수 있습니까?


149

순진 베이 즈 분류에 대한 위키 백과 페이지 ,이 라인이있다 :

p(height|male)=1.5789 (1 이상의 확률 분포는 괜찮습니다. 종 곡선 아래의 면적은 1입니다.)

보다 큰 값은 어떻게 될 수 있습니까? 모든 확률 값이 범위로 표현되었다고 생각했습니다 . 또한 그러한 값을 가질 수 있다고 가정하면 해당 값은 페이지에 표시된 예에서 어떻게 얻습니까?0 P는 1>10p1


2
나는 그것이 어떤 간격에 걸쳐 적분되는 한 양의 숫자가 될 수있는 확률 밀도 함수의 높이 일 수 있다고 생각했을 때, 적분은 1보다 작거나 같습니다. Wikipedia는 그 입력을 수정해야합니다.
Michael Chernick

16
이 미래의 독자들에게 도움이 될 수 있기 때문에,이 질문의 일반적인 부분의 기하학적 변환을 제공합니다 : "어떻게 그 영역 모양이 초과하지 않는 수 아마도 이상 연장 어떤 방향으로?" 구체적으로, 그 모양은 PDF의 그래프에 의해 상반된 상 반면의 일부이고, 해당 방향은 수직이다. 기하 설정 (확률 해석의 뿔)에서 보다 크지 않은 기본 직사각형 및 높이 와 같은 예를 쉽게 생각할 수 있습니다. 1 1 / 2 (2)111/22
whuber

Wikipedia 기사는 이제 p확률 밀도에 소문자 를 사용 하고 확률에 대문자 P를 사용합니다
Aprillion

다음 사람을 위해 여기에 남겨 두겠습니다. en.wikipedia.org/wiki/Dirac_delta_function
Joshua

CDD는 누적 분포 함수 (PDF의 필수 요소)를 초과 할 수 없습니다. CDF는 많은 경우에 사용하기 훨씬 직관적입니다.
naught101

답변:


167

해당 Wiki 페이지는이 숫자를 확률로 참조하여 언어를 남용합니다. 그렇지 않은 것이 맞습니다. 실제로는 발당 확률입니다 . 구체적으로, 1.5789 (높이 6 피트)의 값은 5.99 피트와 6.01 피트 사이의 높이 확률이 다음 단위없는 값에 가깝다는 것을 의미합니다.

1.5789[1/foot]×(6.015.99)[feet]=0.0316

값이 있어야합니다 아시다시피, 1을 초과 할 수 없다. (작은 높이 범위 (이 예제에서는 0.02)는 확률 장치의 중요한 부분입니다. 높이의 "차이"입니다. 약칭 합니다. 단위당 확률은 다음과 같습니다. 단위 부피당 질량과 같은 다른 밀도와 유사하게 밀도 라고 합니다 .d(height)

선의의 확률 밀도 는 무한히 큰 값을 가질 수 있습니다.

감마 분포

이 예는 감마 분포에 대한 확률 밀도 함수를 보여줍니다 (모양 매개 변수 및 스케일 ). 밀도의 대부분이 보다 작기 때문에 모든 확률 분포에 필요한 총 면적이 이 되려면 곡선이 보다 높아야 합니다.1 / 5 1 1 13/21/5111

베타 배포

이 밀도 (파라미터 의 베타 분포 )는 과 에서 무한대가됩니다 . 총 면적은 여전히 ​​유한하며 과 같습니다 !0 1 11/2,1/10011


이 예에서 수컷의 높이는 평균 5.855 피트 및 분산 3.50e-2 제곱 피트의 정규 분포를 갖는 것으로 추정하여 1.5789 / 피트의 값을 얻습니다. (이것은 이전 표에서 찾을 수 있습니다.) 해당 분산의 제곱근은 표준 편차, 0.18717 피트입니다. 평균으로부터 SD의 수로 6 피트를 다시 표현합니다.

z=(65.855)/0.18717=0.7747

표준 편차로 나누면 관계가 생성됩니다

dz=d(height)/0.18717

정의에 따르면 정규 확률 밀도는

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

(실제로, 부정했습니다 : Excel에 NORMDIST (6, 5.855, 0.18717, FALSE)를 계산하도록 요청했지만 실제로 공식을 비교하여 확인했습니다. 필수 미분 )를 제거 할 때 공식에서 는 Cheshire Cat의 미소처럼 만 남습니다. 독자들은 확률을 산출하기 위해 숫자에 약간의 높이 차이를 곱해야한다는 것을 이해해야합니다.d(height)1.5789


Wiki 페이지에 주어진 예제는 실제 확률 대신에 확률을 사용하여 사후 계산에 사용됩니다. 아마도 비교되는 단위가 동일한 경우 단위 당 측면이 비교 목적에 필요하지 않기 때문일 것입니다. 정규성을 가정하고 싶지 않지만 대신 밀도를 추정 할 수있는 경험적 데이터 (예 : 커널 밀도 추정)가있는 경우이를 확장하면 x 축의 주어진 값에서 판독 값을 사용하는 것이 유효 할 것입니다 단위 당 동일하다고 가정하고 순진 베이 분류기에서 후방을 계산하는 입력으로 kde?
babelproofreader

1
@babelproofreader 나는 후자가 훈련 데이터를 통해 이전의 베이지안 업데이트라고 생각합니다. kde가 어떻게 유사하게 해석 될 수 있는지는 확실하지 않지만이 분야의 전문가는 아닙니다. 귀하의 질문은 흥미로워 서 별도로 게시하는 것을 고려할 수 있습니다.
whuber

좋은 차이가 무엇인지 어떻게 알 수 있습니까? 대신 1의 차분을 선택한 경우 어떻게됩니까? 그러면 확률이 1보다 클까요? 혼란스러워서 죄송합니다. 설명 할 수 있습니까?
fiacobelli

3
@tree 삼각형의 넓이는 밑변의 길이와 높이의 곱의 절반입니다.
whuber

1
@ user929304 당신은 당신에게 호소하는 이론적 교과서를 참조 할 수 있습니다 : 이것은 확률과 통계의 기초의 일부입니다. 확률 밀도 의이 특정 개념은 Freedman, Pisani, & Purves 와 같은 더 나은 입문 교과서에서 잘 설명되어 있습니다.
whuber

43

변수가 불연속 인 확률 질량 함수와 변수가 연속적인 확률 밀도 함수의 차이를 이해하지 못하는 것은 흔한 실수입니다. 확률 분포 란 무엇입니까?를 참조하십시오 .

연속 확률 함수는 연속 간격에 걸쳐 무한한 수의 포인트에 대해 정의되며, 단일 포인트에서의 확률은 항상 0입니다. 확률은 단일 지점이 아닌 간격에 따라 측정됩니다. 즉, 두 개의 서로 다른 점 사이의 곡선 아래 영역이 해당 구간의 확률을 정의합니다. 이는 확률 함수의 높이가 실제로 1보다 클 수 있음을 의미합니다. 적분이 1과 같아야하는 속성은 모든 확률의 합이 1과 같아야하는 불연속 분포의 속성과 같습니다.


14
NIST는 일반적으로 신뢰할 만하지 만 여기서는 기술적으로 부정확합니다 (부팅하기에는 문법이 맞지 않습니다). 물론 그들은 단지 무한 카디널리티에 대한 산만을 피하고 있지만, 여기의 추론은 오도의 소지가 있습니다. 인용문의 첫 문장을 생략하는 것이 좋습니다.
whuber

23

구간 걸친 연속 균일 분포 는이 질문에 대한 간단한 예를 제공 한다고 생각합니다. 연속 균일 분포 에서는 각 점의 밀도가 각 점에서 동일합니다 (균일 분포). 또한 사각형 아래의 면적이 1이어야하므로 (일반 곡선 아래의 면적이 1이어야 함) 밀도 값은 여야합니다. 기본 및 면적 사각형 은 높이 .[a,b]1/(ba)ba11/(ba)

따라서 간격에 균일 한 밀도의 값 인 의 간격에서 그것이 ...[0,0.5]1/(0.50)=2[0,0.1]10


4

이 스레드의 초기 게시물에 이어 Wikipedia 기사가 편집되었는지 여부는 알 수 없지만 이제 "1보다 큰 값은 괜찮습니다. 높이보다는 확률 밀도입니다. 연속 변수. ", 그리고이 즉각적인 맥락에서, P는 확률에 사용되고 p는 확률 밀도에 사용된다. 예, 기사에서 확률을 의미하기 위해 p를 사용하고 확률 밀도를 다른 곳에서 p를 사용하기 때문에 매우 느슨합니다.

원래 질문으로 돌아 가기 "1을 초과하는 확률 분포 값이 양호 할 수 있습니까?" 아니요, 그러나 나는 그것을 보았습니다 (아래 마지막 단락 참조).

확률을 해석하는 방법은 다음과 같습니다.> 1 우선, 사람들은 스포츠에서 종종 듣고 https://www.youtube.com/watch?v=br_vSdAOHQQ에서 일하면서 150 %의 노력을 기울일 수 있습니다 . 어떤 일이 일어날 것이라고 확신한다면, 그것은 1의 확률입니다. 당신이 150 %의 노력을 기울이는 것과 같은 사건이 일어날 것이라고 150 % 확신한다면 1.5의 확률이 해석 될 수 있습니다.

확률이 1보다 크면 확률이 0보다 작을 수 있다고 가정합니다. 음의 확률은 다음과 같이 해석 될 수 있습니다. 0.001의 확률은 사건이 발생할 가능성이 거의 없음을 의미합니다. 확률 = 0은 "방법 없음"을 의미합니다. -1.2와 같은 음의 확률은 "농담해야합니다"에 해당합니다.

제가 30 년 전에 학교 밖에서 일할 때 비행의 소리 장벽을 깨는 것, 즉 단결 장벽을 깨는 것보다 더 놀라운 사건을 목격했습니다. 박사 학위를 가진 분석가 물리학에서 객체 X를 탐지 할 확률을 계산하기위한 모델을 개발하기 위해 풀 타임 (아마도 150 % 제공)으로 2 년을 보냈으며, 그의 모델과 분석이 미국과 밀접하게 관련된 여러 과학자와 엔지니어의 동료 검토를 성공적으로 마쳤습니다. 정부. 객체 X가 무엇인지 말하지는 않지만 객체 X와이를 감지 할 가능성은 미국 정부에 상당한 관심을 가져 왔습니다. 모델은 = Prob (이벤트 y 발생)에 대한 공식을 포함했습니다 . PyPy그리고 일부 다른 용어는 모두 최종 공식에 결합되었으며, Prob (개체 X가 감지 됨)였습니다. 실제로, Kolmogorov 전통에서 확률 적으로 "전통적인"확률로 Prob (객체 X가 검출 됨)의 계산 된 값은 [0,1]의 범위 내에 있었다. 원래 형식의 는 항상 [0,1]이며 표준 Fortran 또는 과학 용 계산기에서 사용할 수있는 "정원 다양성"초월 함수와 관련이 있습니다. 그러나 분석가와 신에게만 알려진 이유 때문에 (아마도 그가 물리학 수업과 서적에서 그것을 보았지만 그것이 작동하는 곳이 많지 않은 경우가 아니라 몇 가지 사례가 있음을 알지 못했을 것입니다. 이 사람의 이름과 과학적 / 수학적 판단은 Dirac의 이름이 아니었다)PyPy(및 나머지 용어는 무시) 이후 라고합니다 . 이것은 Prob의 최종 표현에 삽입 된 의이 두 용어 Taylor 확장입니다 (개체 X가 감지 됨). 그가 는 가 모든 매개 변수에 대한 기본 사례 값을 사용하여 약 1.2와 는 것을 . 실제로 는 가능했습니다PyPyPyPy약 1.8까지 올라갑니다. 이것이 바로 통일 장벽을 무너 뜨린 방법입니다. 그러나 그 사람은 내가 암시 한 회의실에서 배터리로 작동하는 신용 ​​카드 크기 카시오 과학 용 계산기에 대한 빠른 계산을 수행하면서 내가 그에게 지적 할 때 까지이 개척적인 업적을 달성했는지 알지 못했습니다. 태양열 계산기). 척 예거가 비행기에서 일요일 스핀을하려고했는데 몇 달 후 방음벽을 깨뜨렸다는 소식 만 들었습니다.


멋진 이야기. 인용과 같은 추가 정보가 있습니까?
Jay Schyler Raadt

1
@ 제이 Schyler Raadt가이은에 설명되어 있습니다 stats.stackexchange.com/questions/4220/... , 하, 하.
마크 L. 스톤

0

랜덤 변수 가 연속적이고 확률 밀도 함수가 이면 는 확률이지만 는 확률이 아니며 1보다 클 수 있습니다. 보고 된 은 확률이 아니지만 입니다.Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

즉, 연속 랜덤 변수 경우 , , 입니다. 조건부 확률도 마찬가지입니다.XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0


-1

확률 밀도 도표의 특정 매개 변수 값에서의 포인트 값은 우연일까요? 그렇다면 간단히 P (높이 | 수컷)을 L (높이 | 수컷)로 변경하여 명령문을 정정 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.