왜 가우스 분포라고 가정합니까?


14

순진한 베이 즈 분류기의 매개 변수 추정 에 관한 Wikipedia 기사에서 인용 한 "일반적인 가정은 각 클래스와 관련된 연속 값이 가우스 분포에 따라 분포되어 있다는 것입니다."

가우시안 분포가 분석상의 이유로 편리하다는 것을 이해합니다. 그러나이 가정을 만드는 또 다른 실제 이유가 있습니까? 인구가 두 개의 하위 인구 (똑똑한 / 멍청한 사람들, 큰 / 작은 사과)로 구성되어 있다면 어떨까요?


5
아마도 중앙 한계 정리로 인해 가우시안 분포는 물리적 현상의 측정에 꼭 맞지 않습니까? 하위 집단을 사용하면 가우스 분포 가 혼합 될 수 있습니다 .
Dilip Sarwate

1
동일한 섹션 (나는 Naive Bayes 기사를보고 있다고 가정하고 있음)은 분포를 모르면 비닝이 더 나은 아이디어라고 지적합니다. 누군가가 왜 가우시안인지 주장 할 수있는 경우에만 가우시안을 가정해야한다는 것을보다 명확하게하기 위해 위키피디아 기사를 편집해야 할 것입니다 (예 : 데이터 플롯 또는 CLT의 가산 패턴을 따릅니다).
rm999

답변:


6

적어도 나를 위해, 정규성의 가정은 두 가지 (매우 강력한) 이유에서 비롯됩니다.

  1. 중앙 한계 정리.

  2. 가우스 분포는 (섀넌 엔트로피의 연속 버전과 관련하여) 최대 엔트로피 분포입니다.

나는 당신이 첫 번째 요점을 알고 있다고 생각합니다 : 당신의 표본이 많은 procceses의 합이라면, 온화한 조건이 만족되는 한 분포는 거의 가우시안입니다 (실제로 CLT의 일반화가 있습니다) 합의 rv가 동일하게 분포되어 있다고 가정해야합니다 (예 : Lyapunov CLT 참조).

두 번째 요점은 일부 사람들 (특히 물리학 자)에게 더 의미가 있습니다. 분포의 첫 번째 순간과 두 번째 순간을 고려할 때, Shannon의 지속적인 엔트로피 척도 (즉, 연속적인 경우에는 다소 임의적이지만 적어도 별개의 경우에는 완전히 객관적이지만 다른 이야기는 가우시안 분포입니다. 이것은 소위 "최대 엔트로피 원리"의 한 형태이며, 엔트로피 형태의 실제 사용법이 다소 임의적이기 때문에 널리 퍼져 있지는 않습니다 ( 이 측정에 대한 자세한 내용이 위키피디아 기사 참조 ).

물론,이 마지막 진술은 다변량의 경우, 즉 첫 번째 ( ) 및 2 차 정보 ( 즉, 공분산 행렬 )는 다변량 가우스로 표시 될 수 있습니다. ΣμΣ

PD : 이 백서 에 따르면 변수의 변동 범위를 알고있는 경우 최대 엔트로피 원리에 따른 분포를 조정해야한다는 최대 엔트로피 원리를 추가해야합니다.


3

내 대답은 첫 번째 응답자에 동의합니다. 중앙 한계 정리는 통계가 합계 또는 평균 인 경우 개별 샘플의 분포에 관계없이 특정 기술 조건에서 대략 정상임을 나타냅니다. 그러나 때로는 사람들이 편리하다고 생각하기 때문에 너무 멀리 들고 다니는 것이 맞습니다. 통계량이 비율이고 분모가 0이거나 그에 가까울 수있는 경우 비율이 정규 값에 비해 너무 무거워집니다. Gosset은 정규 분포에서 표본 표준 편차가 정규화 상수에 사용되는 정규화 된 평균에서 표본을 추출하더라도 분포가 n이 표본 크기 일 때 n-1 자유도를 갖는 t 분포라는 사실을 발견했습니다. 기네스 양조장에서의 현장 실험에서 그는 5-10 범위의 샘플 크기를 가지고 있습니다. 이 경우 t 분포는 0에 대해 대칭이지만 꼬리가 훨씬 무겁다는 점에서 표준 정규 분포와 유사합니다. n 분포가 커짐에 따라 t 분포는 표준 법선으로 수렴합니다. 많은 경우에 분포는 두 모집단의 혼합이므로이 분포 일 수 있습니다. 때때로 이러한 분포는 정규 분포의 혼합으로 적합 할 수 있습니다. 그러나 그들은 정규 분포처럼 보이지 않습니다. 기본 통계 교과서를 보면 추론 문제가 자주 발생하는 많은 파라 메트릭 연속 및 이산 분포를 찾을 수 있습니다. 이산 데이터의 경우, 우리는 이항, 포아송, 기하, 초기 하 및 음의 이항을 가지고 있습니다. 지속적인 예에는 카이 제곱, 로그 정규, 코시, 음의 지수, Weibull 및 Gumbel이 포함됩니다.


2

CLT가 개별 관측치가 아닌 표본 평균에 적용되기 때문에 가우스 분포의 사용을 정당화하기 위해 CLT를 사용하는 것은 일반적인 오류입니다. 따라서 표본 크기가 증가한다고해서 표본이 정규성에 더 가깝다는 것을 의미하지는 않습니다.

가우스 분포는 일반적으로 다음과 같은 이유로 사용됩니다.

  1. 최대 가능성 추정은 간단합니다.
  2. 베이지안 추론은 간단하다 (공액 사전 또는 제프리 형 사전을 사용).
  3. 대부분의 숫자 패키지로 구현됩니다.
  4. 가설 검정 측면에서이 분포에 대한 많은 이론이 있습니다.
  5. 다른 옵션에 대한 지식 부족 (보다 융통성있는). ...

물론 최선의 선택은 컨텍스트의 특성을 고려한 배포를 사용하는 것이지만 이는 어려운 일일 수 있습니다. 그러나 사람들이해야 할 일입니다

"모든 것이 가능한 한 단순해야하지만 단순하지 않아야합니다." (앨버트 아인슈타인)

이게 도움이 되길 바란다.

최고의 소원.


왜 공감해야합니까? 이 설명에 대한 반론은 무엇입니까?
lmsasu

4
"CLT가 표본 평균에 적용되기 때문에 가우시안 분포의 사용을 정당화하기 위해 CLT를 사용하는 것은 일반적인 오류입니다"라는 신념 자체가 오류입니다. 예를 들어, 도체의 전자는 무작위로 움직입니다. 각 전자 의 작은 전하는 도체의 단자에서 측정 할 수 있는 순 노이즈 전압 (열 노이즈라고 함)에 기여합니다 . 각 기여는 작고 전자가 많으므로 CLT를 통해 노이즈는 가우스 랜덤 프로세스 로 모델링 됩니다. 이 모델은 수많은 실험 연구에서 교차 검증되었습니다.
Dilip Sarwate

1
이 첫 단락은 혼란스럽고 주제가 맞지 않는 것 같습니다. CLT를 적용 할 때 각 개별 관측치가 많은 프로세스의 합 / 평균이므로 분포가 가우시안이라고 종종 말합니다. 첫 번째 단락이 제거되면 이것이 좋은 대답이라고 생각합니다.
rm999

1
@ rm999 "첫 번째 단락이 제거되면 이것이 좋은 대답이라고 생각합니다." 실제로 첫 번째 문단 대답의 요점입니다. 나머지는 가우시안 모델이 분석적으로 어떻게 도움이되는지 (OP가 이미 이해하고 있으며) 질문에 응답하지 않기 때문입니다.
Dilip Sarwate

1
@Dilip : (+1) 첫 번째 댓글에 아주 좋은 답변의 핵심이 있습니다. 별도의 게시물에서 확장을 고려하십시오.
추기경
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.