분포는 정확히 무엇입니까?


16

나는 확률과 통계에 대해 거의 알지 못하고 배우고 싶습니다. 나는 "배포"라는 단어가 다른 상황에서 사방에 사용 된 것을 본다.

예를 들어, 이산 랜덤 변수에는 "확률 분포"가 있습니다. 나는 이것이 무엇인지 안다. 연속 확률 변수는 들어, 확률 밀도 함수를 갖는 적분에서 에 확률 밀도 함수에서 평가 누적 분포 함수이고 .xRxx

그리고 분명히 "분포 함수"는 적어도 연속적인 랜덤 변수에 대해 이야기 할 때 "누적 분포 함수"와 동의어입니다 (질문 : 항상 동의어입니까?).

그런 다음 많은 유명한 배포판이 있습니다. 분포 분포 등. 그러나 분포 는 정확히 무엇 입니까? 랜덤 변수 의 누적 분포 함수 입니까? 또는 랜덤 변수 의 확률 밀도 함수 ?Γχ2ΓΓΓ

그러나 유한 데이터 세트의 빈도 분포는 히스토그램 인 것으로 보입니다.

간단히 말해 : 확률과 통계에서 "분포"라는 단어의 정의는 무엇입니까?

나는 수학 (유도 한계 토폴로지를 갖춘 테스트 기능 모음의 이중 공간 요소)에서의 분포 정의를 알고 있지만 확률 및 통계는 알고 있지 않습니다.


1
해당 Wikipedia 기사 는 주제에 대한 적절한 소개 인 것 같습니다.
Aleksandr Blekh

1
엄밀히 말하면 '배포'와 'cdf'는 동의어로 간주되어야하지만 '배포'는 종종 훨씬 느슨한 의미로 사용되며 종종 밀도 / pmf를 나타내는 데 사용됩니다.
Glen_b-복지 주 모니카

3
분포에 대한 여러분의 이해는 확률에 가깝습니다. 가장 큰 차이점은 확률이 높은 속성은 (양성이고 정규화되는) 일부 추가 속성을 즐기는 것입니다. 연결은 정의가 관련 기대 연산자와 관련하여 분포를 설정한다는 것입니다. 통계에서 널리 사용되는 언어에 대한 (심각한) 남용이 있으며, 이는 매개 변수화 된 분포 계열을 "배포"라고도합니다. 마지막으로, 유한 데이터 셋은 "임시 분포"에서 샘플링하여 얻은 분포를 결정합니다.
whuber

@whuber 특히 언어 남용에 감사합니다. 함수의 불완전한 적분을 호출하는 것과 같습니다.
danzibr

답변:


7

다음은위한 가치 랜덤 변수. 다른 공간으로의 확장은 관심이 있다면 간단합니다. 밀도, 질량 및 누적 분포 함수를 개별적으로 고려하는 것보다 약간 더 일반적인 다음 정의가 더 직관적이라고 주장합니다.R

텍스트에 올바른 수학적 / 확률 적 용어를 포함 시켰습니다. 만약 그 용어에 익숙하지 않다면, "Borel sets"를 " 생각할 수 있는 부분 집합"으로 생각하고, 임의의 변수를 관련 확률.R


하자 확률 공간이 될 X ( ω ) R - 이 공간에 임의의 변수를 평가.(Ω,F,P)X(ω)R

내용물 함수 여기서, A는 의 보렐 집합이다라고 분포 X .Q(A):=P(ωΩ:X(ω)A)AX

즉, 분포는 하위 집합에 대해 X 가 해당 집합의 값을 취할 확률을 알려줍니다 . Q 가 함수 F ( x ) : = P ( X x )에 의해 완전히 결정 되고 그 반대의 경우도 Q 가 완전히 결정됨을 증명할 수 있습니다 . 그렇게하려면 - 나는 여기에 세부 사항을 생략 - 확률 할당 보렐 세트에 측정을 구성 F ( X를 ) 모든 세트에 ( - , X ) 이 유한 조치에 동의한다고 주장 Q A의RXQF(x):=P(Xx)F(x)(,x)Q 보렐를 생성하는 시스템은 σ - 대수학.πσ

그렇게하는 것이 발생하면 로서 기록 될 수 Q ( ) = F ( X ) (D) Xf를 위한 밀도 함수이고 Q가 이 밀도 의적 결정되지 않지만 및 보시 (의 변경을 고려 베그 측정 제로)의 세트는 또한 말할 것도 의미한다 F 의 분포 X를 . 그러나 일반적으로 X 의 확률 밀도 함수라고합니다 .Q(A)Q(A)=Af(x)dxfQfXX

마찬가지로, 그래서 생기면 로 기록 될 수 Q ( ) = Σ I { ... , - 1 , 0 , 1 , ... } (F)는 ( ) , 그 때의 이야기하는 말이 F 우리는 보통 그것을 확률 질량 함수라고 부르지 만 X 의 분포로 .Q(A)Q(A)=iA{,1,0,1,}f(i)fX

따라서 " [ 0 , 1 ] 에서 균일 분포를 따른다 "와 같은 것을 읽을 때마다 X 가 특정 세트에서 값을 취할 확률을 알려주 는 함수 Q ( A ) 는 확률 밀도 함수 f ( x ) = I [ 0 , 1 ] 또는 누적 분포 함수 F ( x ) = x f ( t )X[0,1]Q(A)Xf(x)=I[0,1] .F(x)=xf(t)dt

랜덤 변수에 대한 언급이없고 분포 만있는 경우에 대한 마지막 참고 사항. 분포 함수 (또는 질량, 밀도 또는 누적 분포 함수)가 주어지면이 분포를 갖는 랜덤 변수를 갖는 확률 공간이 존재 함을 증명할 수 있습니다. 따라서 분포에 대해 말하거나 분포가있는 랜덤 변수에 대해서는 본질적으로 차이가 없습니다. 그것은 단지 초점의 문제입니다.


3

하자 하자 확률 공간 수 ( X , B를 ) 측정 가능한 공간, 그리고하자 X : Ω X 가 수 측정 기능 수단 X - 1 ( B ) = { ω : X ( ω ) B } F 모든 대 B B . X분포 는 확률 측정 μ입니다(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB X 이상 ( X , B ) 에 의해 정의 μ X ( B ) = P ( X B ) . 경우 X = R B가 보렐 시그마 - 필드, 우리는 함수 참조 X 랜덤 "변수"로.μX(X,B)μX(B)=P(XB)X=RBX


1
매우 :) 확률과 통계의 작은 지식을 사람들에게 명확해야
알렉세이 Grigorev

3
OP는 "유도 한계 토폴로지를 갖춘 테스트 기능 모음의 이중 공간 요소"와 같은 고급 수학 항목을 알고있는 것 같습니다. 그의 질문의 끝을 확인하십시오.
Zen

2
정말 좋은 반응이었습니다. 확률 공간의 정의를 확인해야했지만 수학 배경을 가진 사람에게는 분명했습니다. 나는 답변의 결정에 감사했으며 다른 답변의 세부 사항으로 인해 수락하지 않았습니다.
danzibr

1

지금까지의 질문과 답변은 이론적 분포에 초점을 둔 것으로 보입니다. 경험적 분포는 분포에 대한보다 직관적 인 이해를 제공합니다.

줄넘기를하는 클래스 토너먼트 동안, 줄넘기를하는 모든 아이들을 관찰합니다. 첫 번째 아이는 두 번, 두 번째 네 번, 다음 한 번에 15 번 뛸 수 있습니다. 우리는 점프 횟수를 기록합니다. 아이들 중 5 명은 각각 8 번 뛰었지만 한 명만 2 번 뛰었습니다. 우리는 8 번 점프하는 것이 두 번 점프하는 것과는 다르게 분포되어 있다고 말합니다.

관측 된 분포에 대한 표면적 정의는 변수의 각 관측 값에 대한 발생 빈도입니다.

추론 통계에서는 이론적 분포를 가정하여 이론적 분포를 관측 된 분포에 맞추려고합니다. "관측"을 "관측 가능"으로 바꾸거나보다 정확하게 "예상 됨"으로 이론적 분포에 대한 유사한 정의에 도달 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.