순진한 베이 즈 분류기의 매개 변수 추정 에 관한 Wikipedia 기사에서 인용 한 "일반적인 가정은 각 클래스와 관련된 연속 값이 가우스 분포에 따라 분포되어 있다는 것입니다."
가우시안 분포가 분석상의 이유로 편리하다는 것을 이해합니다. 그러나이 가정을 만드는 또 다른 실제 이유가 있습니까? 인구가 두 개의 하위 인구 (똑똑한 / 멍청한 사람들, 큰 / 작은 사과)로 구성되어 있다면 어떨까요?
순진한 베이 즈 분류기의 매개 변수 추정 에 관한 Wikipedia 기사에서 인용 한 "일반적인 가정은 각 클래스와 관련된 연속 값이 가우스 분포에 따라 분포되어 있다는 것입니다."
가우시안 분포가 분석상의 이유로 편리하다는 것을 이해합니다. 그러나이 가정을 만드는 또 다른 실제 이유가 있습니까? 인구가 두 개의 하위 인구 (똑똑한 / 멍청한 사람들, 큰 / 작은 사과)로 구성되어 있다면 어떨까요?
답변:
적어도 나를 위해, 정규성의 가정은 두 가지 (매우 강력한) 이유에서 비롯됩니다.
중앙 한계 정리.
가우스 분포는 (섀넌 엔트로피의 연속 버전과 관련하여) 최대 엔트로피 분포입니다.
나는 당신이 첫 번째 요점을 알고 있다고 생각합니다 : 당신의 표본이 많은 procceses의 합이라면, 온화한 조건이 만족되는 한 분포는 거의 가우시안입니다 (실제로 CLT의 일반화가 있습니다) 합의 rv가 동일하게 분포되어 있다고 가정해야합니다 (예 : Lyapunov CLT 참조).
두 번째 요점은 일부 사람들 (특히 물리학 자)에게 더 의미가 있습니다. 분포의 첫 번째 순간과 두 번째 순간을 고려할 때, Shannon의 지속적인 엔트로피 척도 (즉, 연속적인 경우에는 다소 임의적이지만 적어도 별개의 경우에는 완전히 객관적이지만 다른 이야기는 가우시안 분포입니다. 이것은 소위 "최대 엔트로피 원리"의 한 형태이며, 엔트로피 형태의 실제 사용법이 다소 임의적이기 때문에 널리 퍼져 있지는 않습니다 ( 이 측정에 대한 자세한 내용 은 이 위키피디아 기사 참조 ).
물론,이 마지막 진술은 다변량의 경우, 즉 첫 번째 ( ) 및 2 차 정보 ( 즉, 공분산 행렬 )는 다변량 가우스로 표시 될 수 있습니다. Σ
PD : 이 백서 에 따르면 변수의 변동 범위를 알고있는 경우 최대 엔트로피 원리에 따른 분포를 조정해야한다는 최대 엔트로피 원리를 추가해야합니다.
내 대답은 첫 번째 응답자에 동의합니다. 중앙 한계 정리는 통계가 합계 또는 평균 인 경우 개별 샘플의 분포에 관계없이 특정 기술 조건에서 대략 정상임을 나타냅니다. 그러나 때로는 사람들이 편리하다고 생각하기 때문에 너무 멀리 들고 다니는 것이 맞습니다. 통계량이 비율이고 분모가 0이거나 그에 가까울 수있는 경우 비율이 정규 값에 비해 너무 무거워집니다. Gosset은 정규 분포에서 표본 표준 편차가 정규화 상수에 사용되는 정규화 된 평균에서 표본을 추출하더라도 분포가 n이 표본 크기 일 때 n-1 자유도를 갖는 t 분포라는 사실을 발견했습니다. 기네스 양조장에서의 현장 실험에서 그는 5-10 범위의 샘플 크기를 가지고 있습니다. 이 경우 t 분포는 0에 대해 대칭이지만 꼬리가 훨씬 무겁다는 점에서 표준 정규 분포와 유사합니다. n 분포가 커짐에 따라 t 분포는 표준 법선으로 수렴합니다. 많은 경우에 분포는 두 모집단의 혼합이므로이 분포 일 수 있습니다. 때때로 이러한 분포는 정규 분포의 혼합으로 적합 할 수 있습니다. 그러나 그들은 정규 분포처럼 보이지 않습니다. 기본 통계 교과서를 보면 추론 문제가 자주 발생하는 많은 파라 메트릭 연속 및 이산 분포를 찾을 수 있습니다. 이산 데이터의 경우, 우리는 이항, 포아송, 기하, 초기 하 및 음의 이항을 가지고 있습니다. 지속적인 예에는 카이 제곱, 로그 정규, 코시, 음의 지수, Weibull 및 Gumbel이 포함됩니다.
CLT가 개별 관측치가 아닌 표본 평균에 적용되기 때문에 가우스 분포의 사용을 정당화하기 위해 CLT를 사용하는 것은 일반적인 오류입니다. 따라서 표본 크기가 증가한다고해서 표본이 정규성에 더 가깝다는 것을 의미하지는 않습니다.
가우스 분포는 일반적으로 다음과 같은 이유로 사용됩니다.
물론 최선의 선택은 컨텍스트의 특성을 고려한 배포를 사용하는 것이지만 이는 어려운 일일 수 있습니다. 그러나 사람들이해야 할 일입니다
"모든 것이 가능한 한 단순해야하지만 단순하지 않아야합니다." (앨버트 아인슈타인)
이게 도움이 되길 바란다.
최고의 소원.