과학자들은 정규 분포 확률 밀도 함수의 모양을 어떻게 알아 냈습니까?


36

이것은 아마도 아마추어 질문 일 수도 있지만 과학자들이 정규 분포 확률 밀도 함수의 모양을 어떻게 얻었습니까? 기본적으로 버그는 누군가에게 정규 분포 데이터의 확률 함수가 종 곡선이 아닌 이등변 삼각형의 모양을 갖는 것이 더 직관적 일 것입니다. 정규 분포 데이터는 모두 종 모양입니까? 실험으로? 아니면 수학적으로 파생 된 것입니까?

결국 우리는 실제로 정규 분포 데이터를 어떻게 생각합니까? 정규 분포의 확률 패턴을 따르는 데이터 또는 다른 것?

기본적으로 내 질문은 왜 정규 분포 확률 밀도 함수가 다른 종 모양이 아닌 종 모양을 갖는 것입니까? 과학자들은 실험 또는 다양한 데이터 자체의 특성을 연구하여 정규 분포를 적용 할 수있는 실제 시나리오를 어떻게 파악 했습니까?


따라서이 링크 가 정규 분포 곡선의 기능적 형태를 도출하는 데 도움이되며 "정규 분포가 왜 다른 것처럼 보이지 않는가?"라는 질문에 답하는 데 실제로 도움이됩니다. 적어도 나에게는 진심으로 추론.


2
이 질문을 확인하십시오 -정규 분포 만 "종 모양"이라고 주장하는 것은 사실이 아닙니다.
Silverfish

11
정규 분포는 매우 중요한 통계적 속성을 지니고있어 연구의 특별한 대상이되며 다른 분포의 제한적인 경우처럼 종종 "자연적으로"발생한다는 것을 의미합니다. 특히 중앙 제한 정리를 참조하십시오 . 그러나 그것은 중간에 정점을 이루고 양쪽에 꼬리가있는 유일한 분포는 아닙니다. 사람들은 종종 히스토그램이 "종 모양"으로 보이기 때문에 그러한 데이터가 정상이라고 생각하지만 링크 된 답변은 그러한 데이터 세트에 대한 다른 후보 분포가 얼마나 많은지를 보여줍니다.
Silverfish

4
통계 학자들은 많은 데이터 세트를보고 정규 분포를 발견하지 못했으며이 밀도 함수를 실현하는 것은 경험적으로 많은 데이터 세트에 적합했습니다. 당신의 질문에서 궁금 하듯이 확률 분포의 특정 문제에 대한 수학적 조사 과정이 있었는데, 정규 분포가 답으로 "튀어 나옵니다". 이것은 예를 들어 여기에 대한 대답 에서 잘 설명되어 있습니다 .
Silverfish

3
그리고 기본적으로 누군가가 왜 정규 분포가 "정상"인지 설명해달라고 요청했다면, 이항 분포에서 시작하여 그 자체로 길고 복잡한 정규 분포의 역사를 설명해야 할 것입니다. 중심 한계 정리를 증명하고 정규 분포가 실제 상황에서 많은 상황을 연구하는 데 적용 가능함을 보여줍니다.
ahra

5
Galton 보드라고 하는 이러한 멋진 장치 중 하나를 사용하여 정규 분포의 모양을 시각화 할 수 있습니다 . 실제로 이것은 이항 분포이지만 중심 한계 정리입니다.
Federico Poloni 13

답변:


21

" 정규 분포의 진화 사울 스탈로는"거의 모든 게시물의 질문에 대답하는 정보의 최고의 소스입니다. 논문 내에서 자세한 토론을 찾을 수 있기 때문에 편의상 몇 가지 요점을 언급하겠습니다.

아마 아마추어 질문 일 것입니다

아닙니다. 통계를 사용하는 사람에게는 흥미로운 질문입니다. 표준 과정의 어느 곳에서도 자세하게 다루지 않기 때문입니다.

기본적으로 버그는 누군가에게 정규 분포 데이터의 확률 함수가 종 곡선이 아닌 이등변 삼각형의 모양을 갖는 것이 더 직관적 일 것입니다. 정규 분포 데이터는 모두 종 모양입니까?

이 그림을 종이에서보십시오. 실험 데이터를 분석하기 위해 Gaussian (Normal)이 발견되기 전에 Simpson이 제시 한 오차 곡선을 보여줍니다. 따라서 직감이 자리 잡고 있습니다.

여기에 이미지 설명을 입력하십시오

실험으로?

그렇기 때문에 "오류 곡선"이라고 불렀습니다. 실험은 천문 측정이었다. 천문학 자들은 수세기 동안 측정 오류로 어려움을 겪었습니다.

아니면 수학적으로 파생 된 것입니까?

다시 그렇습니다! 간단히 말해 천문학적 데이터의 오류를 분석 한 결과 가우스는 그의 분포 (일명 정규 분포)로 이어졌습니다. 그가 사용한 가정은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

그건 그렇고, Laplace는 몇 가지 다른 접근법을 사용했으며 천문학적 데이터로 작업하면서 분포도 생각해 냈습니다.

여기에 이미지 설명을 입력하십시오

정규 분포가 실험에서 측정 오류로 표시되는 이유에 대해서는 물리학자가 제시하는 일반적인 "손으로 물결 치는"설명이 있습니다 (Gerter Bohm, Günter Zech, 물리학 자 통계 및 데이터 분석 p.85 의 인용문 ).

많은 실험 신호는 정규 분포와 매우 유사한 근사치를 따릅니다. 이는 많은 기여와 중심 한계 정리의 결과로 구성되어 있기 때문입니다.


2
Stahl 참조는 원래의 질문을 제기 된 각도에서 매우 많이 다루었습니다. 정말 좋은 발견입니다.
Silverfish

44

당신은 당신의 질문에 정규 분포의 개념이 분포가 식별되기 전에 주변에 있었고 사람들이 그것이 무엇인지 알아 내려고 시도했다고 가정합니다. 그것이 어떻게 작동하는지 분명하지 않습니다. [편집 : "분포에 대한 검색"이 있다고 생각할 수있는 적어도 하나의 의미가 있지만 "많은 현상을 설명하는 분포에 대한 검색"이 아닙니다.]

그렇지 않다; 분포는 정규 분포라고 불리기 전에 알려졌습니다.

모든 정규 분포 데이터의 확률 밀도 함수가 종 모양을 가짐을 어떻게 그런 사람에게 증명할 것입니까

정규 분포 함수는 일반적으로 "종 모양"이라고하는 것입니다. 모든 정규 분포는 동일한 "모양"을 갖습니다 (규모와 위치 만 다름).

분포에서 데이터는 다소 "종 모양"으로 보일 수 있지만 이것이 정상적이지는 않습니다. 많은 비정규 분포는 유사하게 "종 모양"으로 보입니다.

데이터가 도출 된 실제 인구 분포는 실제로 는 결코 정상적이지는 않지만 때로는 상당히 합리적인 근사치입니다.

이것은 일반적으로 우리가 현실 세계에 적용하는 거의 모든 분포에 적용됩니다. 그것들은 세계에 대한 사실 이 아니라 모델 입니다. [예를 들어, 특정 가정 (포아송 프로세스에 대한 가정)을 만들면 널리 사용되는 분포 인 포아송 분포를 도출 할 수 있습니다. 그러나 이러한 가정은 정확히 충족 되었습니까? 일반적으로 (적절한 상황에서) 우리가 말할 수있는 최선은 그들이 거의 사실이라는 것입니다.]

실제로 정규 분포 데이터는 무엇을 고려합니까? 정규 분포의 확률 패턴을 따르는 데이터 또는 다른 것?

그렇습니다. 실제로 정규 분포를 얻으려면 표본을 추출한 모집단에 정확한 형태의 정규 분포를 갖는 분포가 있어야합니다. 결과적으로 유한 모집단은 정상일 수 없습니다. 반드시 경계 지정된 변수는 정상일 수 없습니다 (예 : 특정 작업에 소요되는 시간, 특정 사물 길이는 음수가 될 수 없으므로 실제로 정규 분포를 유지할 수 없음).

정규 분포 데이터의 확률 함수가 이등변 삼각형의 모양을 갖는 것이 더 직관적 일 것입니다

왜 이것이 더 직관적인지 모르겠습니다. 확실히 더 간단합니다.

오류 분포 (특히 초기 천문학)에 대한 모델을 처음 개발할 때, 수학자들은 오류 분포 (한 시점에서 삼각 분포 포함)와 관련하여 다양한 형태를 고려했지만이 작업의 대부분은 수학이었습니다. 직감보다) 사용되었습니다. Laplace는 예를 들어 이중 지수 및 정규 분포 (여러 가지 중에서)를 살펴 보았습니다. 마찬가지로 Gauss는 수학을 사용하여 거의 동시에 그것을 도출했지만 Laplace와는 다른 고려 사항과 관련이 있습니다.

Laplace와 Gauss가 "오류 분포"를 고려하고 있다는 좁은 의미에서, 적어도 한 번은 "분포 검색"으로 간주 할 수 있습니다. 둘 다 중요하다고 생각한 오류 분포에 대해 일부 속성을 가정했습니다 (Laplace는 시간이 지남에 따라 다소 다른 기준 시퀀스를 고려함).

기본적으로 내 질문은 왜 정규 분포 확률 밀도 함수가 다른 종 모양이 아닌 종 모양을 갖는 것입니까?

법선 밀도 함수라고 불리는 것의 기능적 형태는 그 모양을 제공합니다. 표준 법선을 고려하십시오 (간단 성을 위해 다른 모든 법선은 크기와 위치가 다른 동일한 모양을 가짐).

fZ(z)=ke12z2;<z<

k

x

어떤 사람들은 정규 분포를 어떻게 든 "정상적인"것으로 간주했지만 실제로는 특정 상황에서만 발생합니다.


분포의 발견은 일반적으로 de Moivre (이항에 대한 근사값)로 인정됩니다. 그는 실제로 이분법 계수 (/ 이항 확률)를 근사한 계산에 근사하려고 할 때 기능적 형태를 도출했지만 정규 분포의 형태를 효과적으로 도출하는 동안 근사에 대해 생각하지 않은 것으로 보입니다. 확률 분포는 일부 저자는 그가 제안했다고 주장합니다. 어느 정도의 해석이 필요하므로 해석에 차이가있을 수 있습니다.

Gauss와 Laplace는 1800 년대 초에 작업을 수행했습니다. 가우스는 1809 년에 (평균의 중심이 MLE 인 분포와 관련하여) 1810 년에 라플라스 (Laplace)를 대칭 랜덤 변수의 합의 분포에 대한 근사치로 기록했습니다. 10 년 후 Laplace는 이산적이고 연속적인 변수에 대해 초기 형태의 중앙 제한 정리를 제공합니다.

분배에 대한 초기 이름은 포함 오류의 법오류가 주파수의 법을 , 그리고 그것은 또한 때때로 공동으로, 라플라스와 가우스 모두의 이름을 따서 명명되었다.

"정상"이라는 용어는 1870 년대에 세 명의 다른 저자 (Peirce, Lexis 및 Galton)가 1873 년에 처음으로 1877 년에 다른 두 사람에 의해 독립적으로 분포를 설명하는 데 사용되었습니다. 이것은 Gauss와 드 모아 브르의 근사치 이후 Laplace와 두 배 이상. Galton은이를 사용했을 가능성이 가장 높았지만 1877 년 작업에서 주로 "정상"이라는 용어를 사용했습니다 (주로 "편차의 법칙"이라고 함).

그러나 1880 년대에 Galton은 분포와 관련하여 형용사 "정상"을 여러 번 (예 : 1889 년의 "정상 곡선"으로) 사용했으며, 이후 영국의 통계 학자 (특히 Karl Pearson)에게 많은 영향을 미쳤습니다. ). 그는 왜 이런 방식으로 "정상"이라는 용어를 사용했는지는 말하지 않았지만 아마도 "일반적인"또는 "일반적인"이라는 의미로 사용 된 것으로 추정됩니다.

"정규 분포"라는 구의 첫 번째 명시 적 사용은 Karl Pearson에 의한 것으로 보입니다. 그는 오래 전에 그것을 사용했다고 주장하지만 1894 년에 확실히 그것을 사용했습니다.


참고 문헌 :

Miller, Jeff
"일부 수학 단어 중 가장 알려진 것으로 알려진 사용법 :"
정규 분포 (John Aldrich의 항목)
http://jeff560.tripod.com/n.html

스탈, 사울 (2006),
"정규 분포의 진화",
Mathematics Magazine , Vol. 79, No. 2 (4 월), pp 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf

정규 분포 (2016 년 8 월 1 일).
위키 백과, 우리 모두의 백과 사전.
2016 년 8 월 3 일 12:02에서 https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History 에서 검색 함

Hald, A (2007),
"De Moivre의 이항식에 대한 정규 근사치, 1733 및 일반화",
에서 : Bernoulli에서 Fisher까지의 파라 메트릭 통계적 추론의 역사, 1713-1935; pp 17-24

[귀하의 모 이브 르 계정과 관련하여 이러한 출처간에 상당한 불일치가있을 수 있습니다]


심층적 인 답변에 감사드립니다! 정규 분포의 모양이 도출되는 방법을 자세히 살펴 보았고이 문서를 course.ncssm.edu/math/Talks/PDFS/normal.pdf 문서에서 찾았 습니다. 오류는 좌표계의 방향에 의존하지 않습니다 (나중에 중요한 결론을 내릴 수 있다고 가정). 이러한 가정은 다트의 예에만 해당되지만 우연히 실험적인 오류의 예에는 해당되지 않는다고 생각 될 때 .
ahra

실수로 실험적인 오류의 맥락에서 정규 분포를 연구하고 있기 때문에 실제로 전체 다트 접근 방식이 혼란스러워집니다. 다트 접근 방식은 사용 된 컨텍스트에서는 괜찮지 만 종속적이고 독립적 인 변수가있는 실험적 오류의 컨텍스트에서 무엇을 번역 할 것인지 명확하지 않은 2 차원에서 독립적 인 오류를 만들 수 있다고 가정합니다. 즉, 한 차원에서만 오류를 만들 수 있습니다.
ahra

1
참조의 큰 사용. +1
Aaron Hall

2
OP가 (적어도 부분적으로)이 특정 분포가 왜 널리 퍼져 있는지 묻는 것처럼 보이기 때문에 "중앙 제한 정리"가 여기 어딘가에 언급되어야한다고 생각합니다.
joc

1
@ joc 나는 유병률에 대해 질문하거나 그것에 대해 질문하는 것을 보지 못했습니다. 그러나 나는 이항식과 관련된 de Moivre의 작업과 대칭 랜덤 변수의 합에 대한 정규 근사와 관련된 Laplace의 작업에 대해 이야기합니다 ...이 질문과 더 직접 관련이 있습니다. 그러나 문제에 대한 라플라스의 연구와 관련된 문장을 추가 할 것입니다 (그러나 다른 세기에는 그렇게 부르지 않을 것입니다).
Glen_b

11

"정규"분포는 특정 분포로 정의 됩니다.

문제는 왜 우리가이 특정 분포가 본질적으로 공통적이라고 기대하고 왜 실제 데이터가 정확하게 그 분포를 따르지 않더라도 근사치로 사용 되는가? (실제 데이터는 종종 "뚱뚱한 꼬리"를 갖는 것으로 확인됩니다. 즉 평균에서 멀리 떨어진 값은 정규 분포가 예측하는 것보다 훨씬 일반적입니다.)

다시 말하면 정규 분포의 특별한 점은 무엇입니까?

법선에는 많은 "좋은"통계 속성이 있지만 (예 : https://en.wikipedia.org/wiki/Central_limit_theorem 참조 ) 가장 관련성이 높은 IMO는 주어진 평균과 분산. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution

이것을 평범한 언어로 표현하기 위해 분포의 평균 (중심점)과 분산 (폭) 만 주어지고 그것에 대해 다른 것을 가정하지 않으면 정규 분포를 그려야합니다. 다른 정보는 정보 를 결정하기 위해 추가 정보 ( 예 : Shannon 정보 이론 의 의미에서 )가 필요합니다.

ET Jaynes는 베이지안 추론에서 합리적인 우선 순위를 결정하는 방법으로 최대 엔트로피의 원리를 도입했으며,이 속성에 관심을 갖는 것은 처음이라고 생각합니다.

자세한 내용은 다음을 참조하십시오. http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf


6
"즉, 분포의 평균 (중심점)과 분산 (폭) 만 제공하고 그것에 대해 다른 것을 가정하지 않으면 정규 분포를 그려야합니다." 나는 그것이 "강제"의 정의가 무엇인지에 달려 있다고 생각합니다. 당신은 강요 될 수 있습니다. 나는하지 않을 것입니다. 당신이 묘사 한 것은 함수가 그 형태를 모르면 선형 적이라고 가정하거나 임의의 변수가 그들의 정확한 의존성을 모르면 독립적이라는 가정을하는 "강제"에 해당하는 도덕적 동등성입니다. 나는 이러한 가정을 강요하지 않았으며, 강요하지도 않을 것이다.
Mark L. Stone

5
@Neil Mark의 요점 중 일부는 칭의강박
whuber

5
@Neil 그것에서 멀리! 먼저 최대 엔트로피의 원리가 유용하고 통계 문제에 적용 할 수 있다고 가정해야합니다. 다음으로 배포에 대해 추측 할 수있는 것이 아무것도 없다는 것을 절대적으로 확신해야합니다. 둘 다 문제가 있습니다. (이론 물리학의 영역 밖에서 나는 대부분의 통계적 문제에서 전자는 사실이 아니며, 후자는 실제로 실제 문제를 본 적이 없다.)
whuber

1
@ 닐 마크와 우버. 나는 그 단락을 명확히하려고 노력했다. 나는 "다른 어떤 것도 가정하지 않는다"는 최대 엔트로피의 원리가 무엇을하려고하는지에 대한 합리적인 평범한 언어 설명이라고 생각합니다. 평범한 언어이기 때문에 다른 해석을 할 수 있습니다. 그래서 우리는 수학이 필요합니다. 보다 정확한 진술은 Shannon의 의미에서 정보를 추가하지 않는다는 것입니다. 링크는 이것을 더 설명합니다.
gareth

1
@gareth는 모든 실제에 대한 균일 분포 (최신 의견에서 의미한다고 생각)는 매우 부적절한 분포입니다. 정규 분포를 향한 동인으로서의 최대 엔트로피에 대한 귀하의 주장은 중요한 가정입니다. 최소 범위와 같은 다른 것을 가정하는 것보다 더 강력한 이유는 무엇입니까?
Henry

3

정규 분포 (일명 " 가우시안 분포 ") 확고한 수학적 기초를 가지고있다. 중앙 한계 정리 ( Central Limit Theorem) 는 특정 평균과 분산을 갖는 유한 한 n 개의 독립적이고 동일하게 분포 된 랜덤 변수의 유한 세트를 가지고 있고 그 랜덤 변수의 평균을 취하면 결과 분포가 n으로 가우시안 분포로 수렴한다고 말합니다. 무한대로 간다. 수학적 도출이이 특정 분포 함수로 이어지고 다른 것은 없기 때문에 추측은 없습니다.

이를보다 실질적인 용어로 바꾸려면 공정한 동전 뒤집기 (예 : 2 개의 동일한 결과)와 같은 단일 랜덤 변수를 고려하십시오. 특정 결과를 얻을 확률은 머리의 경우 1/2, 꼬리의 경우 1/2입니다.

동전의 수를 늘리고 각 시행으로 얻은 총 머리 수를 추적 하면 대략 종 모양 의 이항 분포 를 얻을 수 있습니다. x 축을 따라 머리 수와 y 축을 따라 많은 머리를 뒤집은 횟수를 그래프로 나타내십시오.

동전을 많이 사용할수록 동전을 더 많이 뒤집을수록 그래프는 가우시안 종 곡선처럼 보입니다. 그것이 중앙 제한 정리가 주장하는 것입니다.

놀랍게도 정리는 랜덤 변수가 동일한 분포를 갖는 한 랜덤 변수가 실제로 분포되는 방법에 의존하지 않는다는 것입니다. 정리의 핵심 아이디어 중 하나 는 랜덤 변수를 추가 하거나 평균화 한다는 것 입니다. 또 다른 주요 개념은 정리는 랜덤 변수의 수가 증가함에 따라 수학적 한계 를 설명한다는 것 입니다. 더 많은 변수를 사용할수록 분포가 정규 분포에 가까워집니다.

수학자들이 정규 분포가 실제로 종 곡선에 대해 수학적으로 올바른 함수라고 판단한 경우 수학 통계 수업을 수강하는 것이 좋습니다.


당신의 기여에 감사합니다. 합 (또는 평균)의 분포를 표준화해야 한다고 설명하면 정확 합니다. 그렇지 않으면 합의 분포가 한계에 접근하지 않고 평균의 분포가 상수에 접근합니다. 그러나이 게시물은 제기 된 질문에 어떻게 대답합니까? (물론, 여러 가지 의문이 제기되고 있으며 모두 혼란스럽고 모호하지만 가우시안 PDF의 공식이 어떻게 발견 또는 도출되었는지에 대해 묻는 것 같습니다.)
whuber

2

이 글타래에 대한 훌륭한 답변이 있습니다. OP가 모든 사람이 대답하고 싶은 것과 같은 질문을하지 않았다는 느낌을 줄 수 없습니다. 그래도 이것이 가장 흥미로운 답변 중 하나에 가깝기 때문에 나는 그것을 얻었습니다. 누군가 "일반 PDF가 PDF라는 것을 어떻게 알 수 있습니까?"라는 질문을 받았기 때문에 실제로 그것을 찾았습니다. 나는 그것을 검색했다. 그러나 질문에 대한 대답은 정규 분포의 기원을 보여주는 것일 수 있습니다.

nnnpnp(1p)n

np0np=1

n=10p=0.5n=100p=0.5n

지금 당장 지상에 100 코인을 버리고 머리 수를 세면 머리 0 개를 세거나 머리 100 개를 세지 만 사이에 숫자를 세는 확률이 높습니다. 이 히스토그램이 종 모양이어야하는 이유를 알고 있습니까?


+1-그러나 나는 내 답변의 여러 부분에서 de Moivre에 대해 이야기합니다. 흥미로운 참고 문헌의 불일치와 관련하여 내 대답에서 마지막 메모를 찾을 수 있습니다. 실제로 Moivre가 그의 작품의 다른 특성이 유지되는 것처럼 보이는 정도를 확인하기 위해 작성한 내용을 살펴볼 가치가 있습니다. 이항 cdf가 왜 적절한 조건에서 정규 cdf에 의해 근사화 되는가에 대한 구체적인 논의는 왜 이항 분포가 종 모양인가?
Glen_b

1

또한 두 가지 가정에서 독립 다변량 정규 분포의 Maxwell-Herschel 파생을 언급 할 것입니다.

  1. 분포는 벡터의 회전에 영향을받지 않습니다.

  2. 벡터의 구성 요소는 독립적입니다.

Jaynes 의 박람회는 다음과 같습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.