데이터가 정상적으로 배포되는 이유


19

실제 데이터가 정규 분포 될 것으로 예상되는 이유를 설명 할 수있는 이론은 무엇입니까?

내가 아는 두 가지가 있습니다.

  1. 중앙 한계 정리 (물론)는 평균과 분산 (동일하게 분포되지 않은 경우에도)을 갖는 여러 개의 독립적 인 랜덤 변수의 합이 정규 분포를 따르는 경향이 있음을 알려줍니다.

  2. 관절 밀도가 엑스2 + 에만 의존하도록 X와 Y가 차별화 가능한 밀도를 가진 독립적 인 연속 RV가되게하십시오 . 그러면 X와 Y는 정상입니다.와이2

( mathexchange 에서 교차 포스트 )

편집 : 분명히하기 위해 실제 데이터가 얼마나 많이 배포되는지에 대해서는 주장하지 않습니다. 나는 어떤 종류의 프로세스가 정상적으로 분산 된 데이터로 이어질 수 있는지에 대한 통찰력을 줄 수있는 이론에 대해 묻고 있습니다.


7
stats.stackexchange.com/questions/4364 의 스레드에서 흥미로운 관련 자료를 찾을 수 있습니다 . 일부 독자들 사이의 혼동을 피하기 위해, 전체 또는 대부분의 실제 데이터 세트가 정규 분포에 의해 적절하게 추정 될 수 있음을 암시하는 것으로 귀하의 질문을 읽어서는 안된다고 덧붙이고 싶습니다. 오히려 특정 조건이 유지되는 특정 경우에는 데이터를 이해하거나 해석하기위한 기준 프레임으로 정규 분포를 사용하는 것이 유용 할 수 있습니다. 따라서 이러한 조건은 무엇입니까?
whuber

링크 주셔서 감사합니다! 그리고 정확히 맞습니다. 설명을 주셔서 감사합니다. 원본 게시물로 편집하겠습니다.
익명

@ user43228, " 물론, 전혀 정상적이지 않은 실제 문제에서 발생하는 많은 다른 분포가 있습니다. " askamathematician.com/2010/02/…
Pacerier

답변:


17

불연속 RV (포아송, 이항 등)의 많은 제한 분포는 대략 정상입니다. 플린 코를 생각하십시오. 근사 정규성이 유지되는 거의 모든 경우에서 정규성은 큰 표본에만 적용됩니다.

대부분의 실제 데이터는 정상적으로 배포되지 않습니다. Micceri (1989)의 논문은 " 유니콘, 일반 곡선 및 기타 불가능한 생물 " 이라고 불리는 440 개의 대규모 성취와 심리 측정을 조사했습니다. 그는 순간에 따른 분포의 변동성이 많고 정규성에 대한 증거가 많지 않음을 발견했습니다.

스티븐 스티 글러 (Steven Stigler)의 1977 년 논문에서 " 강건한 추정기 실제 데이터로 작업하기 "는 18 세기의 유명한 시도에서 수집 된 24 개의 데이터 세트를 사용하여 지구에서 태양까지의 거리를 측정하고 19 세기에는 광속을 측정하려고 시도했습니다. 그는 표 3에 샘플 왜도 및 첨도를보고했다. 데이터는 꼬리가 무겁다.

통계에서 우리는 최대 가능성 (또는 다른 방법)이 편리하기 때문에 정규성을 종종 가정합니다. 그러나 위에서 인용 한 두 논문은 가정이 종종 열악하다는 것입니다. 이것이 견고성 연구가 유용한 이유입니다.


2
이 게시물의 대부분은 훌륭하지만 소개 단락은 쉽게 잘못 해석 될 수 있기 때문에 나를 귀찮게합니다. 보다는 명시 적으로 - - 일반적으로, "큰 샘플"정규 분포를 보일 것이라고 말할 수 있습니다. 당신의 다음 말에 비추어 볼 때 나는 당신이 정말로 그런 말을 할 것이라고 생각하지 않습니다.
whuber

나는 더 분명해야했다. 나는 대부분의 실제 데이터가 정상적으로 분포되어 있다고 제안하지 않는다. 그러나 그것은 제기해야 할 큰 포인트입니다. 그리고 당신이 의미하는 바는 n이 큰 이항 분포가 정상이고, 평균이 큰 포아송 분포가 정상이라는 것을 가정합니다. 다른 분포는 정규성을 향하는 경향이 있습니까?
anonymous

감사합니다. 첫 번째 단락을 편집했습니다. 예를 들어 순열에서 선형 형태에 대한 정리는 Wald and Wolfowitz (1944)를 참조하십시오. 즉, 그들은 순열 하에서 두 개의 샘플 t 통계가 무증상 정상임을 보여 주었다.
bsbk

샘플링 분포는 "실제 데이터 세트"가 아닙니다! 아마도 귀하의 게시물에 명백한 불일치로 인한 어려움은 분포와 데이터 간의 이러한 혼란에서 비롯된 것일 수 있습니다. 아마도 그것은 당신이 실제로 어떤 "제한적"과정을 염두에두고 있는지 명확성이 부족하기 때문일 것입니다.
whuber

3
원래의 질문은 실제 데이터가 어떻게 생길지 "생성 적으로"설명하는 것이 었습니다. 실제 데이터는 이항 또는 포아송 프로세스에서 생성 될 수 있으며,이 두 프로세스는 정규 분포에 의해 근사 될 수 있습니다. op는 다른 예제를 요구했고 마음에 들었던 것은 순열 분포입니다. 실제 데이터가 해당 배포에서 생성되어 확장 될 수있는 방법을 생각할 수 없습니다.
bsbk

10

정규 분포를 사용하기위한 정보 이론적 근거도 있습니다. 평균과 분산이 주어지면 정규 분포는 모든 실제 확률 분포 중 최대 엔트로피를 갖습니다. 이 부동산에 관한 많은 자료가 있습니다. 간단한 내용은 여기에서 확인할 수 있습니다 . 지금까지 언급 한 대부분의 주장과 관련된 가우시안 분포를 사용하는 동기에 대한보다 일반적인 논의는 Signal Processing 잡지 의이 기사에서 찾을 수 있습니다 .


6
내가 이해 한대로 이것은 거꾸로입니다. 정규성의 가정을 만드는 것이 엄격하게 정의 된 의미에서 약한 가정에 관한 것입니다. 실제 데이터에 대한 의미가 무엇인지 알 수 없습니다. 커브가 곡률에 대해 가장 간단한 가정이기 때문에 커브가 일반적으로 직선이라고 주장 할 수도 있습니다. 인식론은 온톨로지를 제한하지 않습니다! 당신이 인용 한 참조가 그것을 넘어 서면, 논증을 철자하십시오.
Nick Cox

3

물리학에서는 CLT이며 많은 측정에서 정규 분포 오차가 발생하는 원인으로 일반적으로 인용됩니다.

실험 물리학에서 가장 일반적인 두 가지 오차 분포는 정규 및 포아송입니다. 후자는 일반적으로 방사성 붕괴와 같은 카운트 측정에서 발생합니다.

이 두 분포의 또 다른 흥미로운 특징은 가우시안과 포아송의 랜덤 변수의 합이 가우시안과 포아송에 속한다는 것입니다.

다음과 같은 실험 과학 통계에 관한 여러 책 이 있습니다 : Gerhard Bohm, Günter Zech, 물리학자를위한 통계 및 데이터 분석 소개, ISBN 978-3-935702-41-6


0

CLT는 모집단 평균과 같은 것에 대해 추론 할 때 매우 유용합니다. 개별 측정의 일종의 선형 조합을 계산하여 계산하기 때문입니다. 그러나 개별 관측치, 특히 미래 관측치 ( 예 : 예측 간격) 에 대해 추론하려고 할 때 분포의 꼬리에 관심이있는 경우 정규성 편차가 훨씬 더 중요합니다. 예를 들어 관측치가 50 개인 경우 미래 ​​관측치가 평균과 최소 3 개의 표준 편차가 될 가능성에 대해 말할 때 매우 큰 외삽 (및 믿음의 도약)을하고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.