공통 분포의 실제 예


28

통계에 관심을 갖고있는 대학원생입니다. 나는 자료 전체를 좋아하지만 때로는 실생활에서의 응용에 대해 생각하기가 어렵다. 특히, 내 질문은 일반적으로 사용되는 통계 분포 (정상-베타 감마 등)에 관한 것입니다. 어떤 경우에는 분포를 아주 좋게 만드는 특정 속성을 얻습니다-예를 들어 지수가없는 메모리리스 속성. 그러나 다른 많은 경우에는 교과서에서 볼 수있는 공통 배포판의 중요성과 적용 분야에 대한 직관이 없습니다.

내 관심사를 해결하는 좋은 소스가 많이있을 것입니다. 공유 할 수 있다면 기쁠 것입니다. 실제 사례와 연관시킬 수 있다면 재료에 훨씬 더 많은 동기가 부여됩니다.


8
Mathematica의 기능 에 대한 도움말 페이지 EstimatedDistribution 의 "응용 프로그램"에 광범위한 분포를 포괄하는 14 가지 응용 프로그램이 설명되어 있습니다 .
whuber

답변:


23

Wikipedia에는 각 분포에 대한 자세한 정보 링크가 포함 된 많은 확률 분포나열된 페이지가 있습니다. 목록을 살펴보고 링크를 따라 가면 다른 배포판이 일반적으로 사용되는 응용 프로그램 유형에 대해 더 잘 느낄 수 있습니다.

이러한 분포는 현실을 모델링하는 데 사용되며 Box가 말했듯이 "모든 모델이 잘못되었고 일부 모델이 유용합니다."

다음은 일반적인 배포판과 유용한 배포판입니다.

Normal : CLT 때문에 평균 및 기타 선형 조합 (예 : 회귀 계수)을 볼 때 유용합니다. 이와 관련하여 여러 가지 작은 원인의 부가 효과로 인해 무언가가 발생하는 것으로 알려진 경우 정상은 합리적인 분포 일 수 있습니다. .

감마 : 오른쪽으로 치우치고 자연스럽게 최소값이 0 인 물건에 유용합니다. 일반적으로 경과 시간 및 일부 재무 변수에 사용됩니다.

지수 : 감마의 특별한 경우. 메모리가 없으며 쉽게 확장됩니다.

카이 제곱 ( ) : 감마의 특수한 경우입니다. 제곱 정규 변수의 합으로 산정됩니다 (분산에 사용됨).χ2

베타 : 0과 1 사이에서 정의되지만 (다른 값 사이로 변환 될 수 있음) 0과 1 사이의 비율 또는 기타 수량에 유용합니다.

이항 : 주어진 성공 횟수와 동일한 횟수의 독립적 인 시도에서 "성공"수

푸 아송 : 카운트에 공통입니다. 일정 기간 또는 영역의 이벤트 수가 Poisson을 따르는 경우 시간 또는 영역의 두 배의 숫자가 여전히 Poisson을 따르는 경우 (평균의 두 배) : 이는 포아송을 추가하거나 다른 값으로 스케일링하는 데 효과적 2.

이벤트가 시간이 지남에 따라 발생하고 발생 사이의 시간이 지수를 따르는 경우, 기간 내에 발생하는 숫자는 포아송을 따릅니다.

음 이항 : 최소 0 (또는 버전에 따라 다른 값)으로 계산되며 상한이 없습니다. 개념 상 그것은 k "성공"이전의 "실패"의 수입니다. 음 이항은 또한 감마 분포에서 나온 포아송 변수의 혼합입니다.

기하 : 음 이항의 경우 첫 번째 "성공"이전의 "실패"수입니다. 지수 변수를 불 연속적으로 만들기 위해 잘라 내면 (반올림) 결과는 기하학적입니다.


3
답변 주셔서 감사합니다. 그러나 wikipedia는 더 일반적인 설명을 제공합니다. 기본적으로 내 질문은 일부 배포판이 좋은 이유입니다. 정규 분포의 경우 가능한 답을 제공하기 위해 중앙의 제한된 정리와 관련 될 수 있습니다. 즉, 무한한 양의 관측 값을 샘플링하면 실제로는 비대칭 적으로 볼 수 있습니다. . 나는 더 많은 예제를 찾고 있습니다 ..
Roark

실제 분포는 아니지만 바이 모달은 어떻습니까? 인간의 많은 성별 차이가 양손 모양이 아니라는 것을 발견 한 후에 일반적으로 보이는 실제 사례를 생각할 수 없습니다.
천장 고양이

다항식 추가

3

점근 론 이론은 정규 분포, 극단적 인 가치 유형, 안정적인 법칙 및 포아송으로 이어집니다. 지수와 Weibull은 이벤트 분포에 대한 파라 메트릭 시간으로 나타나는 경향이 있습니다. Weibull의 경우 샘플의 최소값에 대한 극단적 인 값 유형입니다. 정규 분포 관측치에 대한 모수 모형과 관련하여 카이 제곱, t 및 F 분포는 가설 검정 및 신뢰 구간 추정에서 발생하며, 카이 제곱은 우발성 테이블 분석 및 적합도 검정에서 나옵니다. 검정력을 연구하기 위해 비 중심 t 및 F 분포가 있습니다. 초기 하 분포는 Fisher의 우발 상황 표에 대한 정확한 검정에서 발생합니다. 이항 분포는 실험을 수행하여 비율을 추정 할 때 중요합니다. 음 이항은 점 공정에서과 분산을 모델링하는 중요한 분포입니다. 그것은 당신에게 실질적인 파라 메트릭 distrbutions에 대한 좋은 출발점을 제공 할 것입니다. (0, ∞)의 음이 아닌 랜덤 변수의 경우 감마 분포는 다양한 모양을 제공하는 데 융통성이 있으며 로그 법선도 일반적으로 사용됩니다. [0,1]에서 베타 계열은 균일 한 분포와 왼쪽으로 치우친 분포 또는 오른쪽으로 치우친 분포를 포함한 대칭 적 차이를 제공합니다.

또한 통계 분포의 분포에 대한 모든 중요한 세부 사항을 알고 싶다면 불연속 분포, 연속 일 변량 분포 및 연속 다변량 분포 및 고급 이론의 1 권을 포함하는 Johnson과 Kotz의 고전 서적이 있습니다. Kendall과 Stuart의 통계 자료.


답을 많이 가져 주셔서 감사합니다. 이것은 매우 유용합니다. 다시 한 번 감사드립니다. 정말 도움이되었습니다.
Roark

2

William J. Feller "확률 이론 및 응용 프로그램 소개, 제 2 권"의 첫 6 개 장 (처음 218 페이지)을 구매하고 읽으십시오. http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . 최소한 해결책의 모든 문제를 읽고 가능한 한 많은 문제를 해결하십시오. 제 1 권을 읽을 필요는 없습니다. 제 생각에는 특별히 공로가 아닙니다.

저자가 45 년 반 전에 죽었음에도 불구하고, 책이 완성되기 전에, 이것은 확률과 확률 론적 과정의 직관을 개발하고 다양한 분포에 대한 느낌을 이해하고 발전시키는 데있어 가장 훌륭한 책입니다. 실제 현상과 어떻게 관련되는지, 그리고 발생할 수있는 다양한 확률 론적 현상. 그리고 견고한 기초를 바탕으로 구축하면 통계에 능숙해질 것입니다.

조금 더 어려워지는 다음 장을 통해 그것을 만들 수 있다면, 거의 모든 사람보다 몇 년 앞서있을 것입니다. Feller Vol 2를 알고 있다면 확률 (및 확률 론적 과정)을 알 수 있습니다. 즉, 새로운 개발과 같이 알지 못하는 것은 견고한 기초 위에 구축하여 신속하게 선택하고 숙달 할 수 있다는 의미입니다.

이 글에서 언급 한 거의 모든 것은 Feller Vol 2에 있습니다 (Kendall Advanced Theory of Statistics의 모든 내용은 아니지만 Feller Vol 2 이후에는 그 책을 읽는 것이 케이크 조각이 될 것입니다). 확률 론적 사고와 직관을 발전시켜야합니다. Johnson과 Kotz는 다양한 확률 분포에 대한 축소에 유용하며 Feller Vol 2는 미숙아에 대해 생각하는 방법을 배우고 Johnson과 Kotz에서 추출 할 내용과 사용법을 아는 데 유용합니다.


2

다른 훌륭한 답변에 추가하십시오.

npλ=np0과 무한대에서 멀어지면서 일정하게 유지됩니다. 이것은 개별적으로 매우 불가능한 많은 이벤트가있을 때마다 유용하다는 것을 알려줍니다. 몇 가지 좋은 예는 다음과 같습니다. 하루에 뉴욕에서 자동차 사고가 발생한 횟수와 같은 사고입니다. 두 대의 차량이 지나갈 때마다 충돌 확률이 매우 낮기 때문에 그러한 기회의 수가 실제로 천문학적입니다! 이제 1 년 동안 세계에서 총 비행기 추락 횟수와 같은 다른 예를 생각해 볼 수 있습니다. Preussian 기병대에서 말타기에 의해 사망자가 발생하는 고전적인 예!

np(1p)p1pnpλpp


0

최근에 출판 된 연구일반적인 생각과는 달리, 인간의 수행은 정상적으로 분배되지 않는다는 것을 제안합니다. 4 개 분야의 데이터를 분석했습니다. (1) 가장 두드러진 분야별 저널의 출판 빈도를 기준으로 50 개 분야의 학업. (2) 배우, 음악가 및 작가와 같은 연예인, 그리고 수상, 지명 또는 차별의 수. (3) 10 개국 정치인 및 선거 / 재선거 결과. (4) 홈런 수, 팀 스포츠 리셉션 및 개별 스포츠의 총 승리와 같이 가장 개별화 된 수단을 찾는 대학생 및 프로 운동 선수. 저자는 "우리는 데이터를 얼마나 좁거나 광범위하게 분석하든 관계없이 각 연구에서 명확하고 일관된 전력 법칙 분포가 전개되는 것을 보았습니다 ..."


4
휴먼 퍼포먼스가 정상적으로 배포된다고 누가 제안 했습니까? 80-20 원리는 파레토 (1906!)에 의해 제안되었다.
abaumann
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.