정규 분포를 따르는 자연 현상이 너무 많은 이유에 대한 설명이 있습니까?


29

나는 이것이 매혹적인 주제라고 생각하며 그것을 완전히 이해하지 못한다. 많은 자연 현상이 정규 분포를 갖도록 물리 법칙은 무엇입니까? 그것들이 균일 한 분포를 갖는 것이 더 직관적 인 것처럼 보일 것입니다.

이해하기가 너무 어려워서 정보가 누락 된 것 같습니다. 누군가 좋은 설명을하도록 도와 주거나 책 / 비디오 / 문서로 연결시킬 수 있습니까?



7
전제가 사실이라고 생각할만한 확실한 이유가 있습니까?
Glen_b-복지 주 모니카

4
실제로 정규 분포는 본질적으로 "주요"분포가 아닐 수 있습니다. 극도로 가치가 있거나, 꼬리가 무겁거나, 권력 법 기능을 설명하는 많은 현상과 행동이 있습니다. 그의 논문에서이 분배 클래스의 경제 및 금융 변종의 많은 Gabaix 문서 경제학 전원 법 : 소개는 여기 ungated ... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi, 등 알. 이 백서에서 경험적 추정에 대해 논의 하십시오. 경험적 데이터의 Power-Law Distribution은 여기에 설명되어 있습니다. santafe.edu/media/workingpapers/07-12-049.pdf
Mike Hunter

어쨌든 정규 분포가 지배적이라고 누가 말했습니까?
shadowtalker

1
링크에 대해서는 @DJohnson +1이지만 Clauset et al.의 주요 발견 사항을 지적하는 것이 중요합니다. 논문은 강력하게 지원되는 경험적 권력 법 배포가 너무 많지 않다는 것입니다 ! "단 하나의 경우 (영어 텍스트로 단어의 발생 빈도 분포) – 권력 법은 그것이 데이터에 매우 적합하고 어떤 대안도 가지고 있지 않다는 점에서 진정으로 설득력있는 것으로 보인다. 무게."
Sycorax는 Reinstate Monica가

답변:


30

전제를 부인하면서 시작하겠습니다. 로버트 기어 리 (Robert Geary)는 아마도 (1947 년) " 정상 성은 신화이며, 정규 분포는 없었고, 앞으로도 없을 것입니다. " 라고 말했을 때 사건을 과장하지 않았을 것 입니다. "-
정규 분포는 모형 *입니다. 때로는 다소 유용합니다 근사.

* ( 내 프로필에서 버전을 선호하지만 George Box 참조 ).

독립적 인 (또는 너무 강한 상관 관계가없는) 효과의 합이 많고 ​​그 변화에 비해 실질적인 차이가 없다면, 어떤 현상이 대략 정상이라는 것은 그리 놀라운 일이 아닙니다. 분포가 더 평범 해 보이는 경향이있는 나머지의 합입니다.

중앙 한계 정리 ( 일부 온화한 조건에서 이 무한대로 가면서 표준화 된 표본 평균의 정규 분포에 대한 수렴에 관한 수렴에 관한 것 )는 적어도 충분히 크지 만 유한 한 표본 크기를 갖는 정규성 경향을 볼 수 있음을 시사합니다.

물론 표준화 된 수단이 대략 정상이라면 표준화 된 합이 될 것입니다. 이것이 "많은 효과의 합"추론의 이유입니다. 따라서 유사 콘텐츠에 대한 기여도가 적고 연관성이 높지 않은 경우 해당 콘텐츠가 표시되는 경향이 있습니다.

Berry-Esseen 정리는 실제로 iid 데이터에 대해 표준화 된 표본 평균 (CLT보다 약간 더 엄격한 조건 하에서 세 번째 절대 모멘트가 유한해야하므로)에 대해 실제로 발생하는 정규 분포에 대한 수렴에 대한 설명을 제공합니다. 얼마나 빨리 발생하는지 알려주세요. 차후의 정리 정리는 동일성 에서 비 분산 성분을 처리 하지만 정규성 편차의 상한은 덜 엄격합니다.

덜 공식적으로, 합리적으로 분포가 좋은 컨볼 루션의 동작은 많은 경우 유한 샘플에서 공정한 근사치가 될 수 있다고 의심 할만한 추가적인 이유를 제공합니다. 컨볼 루션은 다양한 커널에서 커널 밀도 추정을 사용하는 사람들이 잘 알고있는 일종의 "번짐"연산자입니다. 일단 결과를 표준화하면 (그러한 작업을 수행 할 때마다 분산이 일정하게 유지됨) 반복적으로 매끄럽게 갈수록 점점 대칭적인 언덕 모양으로 진행되는 것이 분명합니다 (매번 커널을 변경하더라도 중요하지 않음).

Terry Tao는 여기 에서 Central limit 정리와 Berry-Esseen 정리의 버전에 대한 멋진 토론을 제공 하며, 비 독립적 인 Berry-Esseen 버전에 대한 접근 방식을 언급합니다.

따라서 적어도 한 가지 부류의 상황이있을 것으로 예상되며, 그러한 상황에서 실제로 발생하는 경향이 있다고 생각하는 공식적인 이유가 있습니다. 그러나, "많은 효과의 합"의 결과가 정상일 것이라는 것은 어떤 의미에서나 근사치입니다. 많은 경우에 이것은 상당히 합리적인 근사치입니다 (추가 분포의 경우 근사치가 가깝지 않더라도 정규성을 가정하는 일부 절차는 적어도 큰 표본에서 개별 값의 분포에 특히 민감하지 않습니다).

효과가 "추가"되지 않는 다른 많은 상황이 있으며 다른 상황이 발생할 것으로 예상 할 수 있습니다. 예를 들어, 많은 재무 데이터에서 효과는 배가되는 경향이 있습니다 (예를 들어, 효과는이자 및 인플레이션 및 환율과 같은 비율로 금액을 이동시킵니다). 우리는 정규성을 기대하지 않지만 때때로 로그 스케일에서 정규성에 대한 대략적인 근사치를 관찰 할 수 있습니다. 다른 상황에서는 거친 의미로도 적합 할 수 없습니다. 예를 들어, 이벤트 간 시간은 일반적으로 로그의 정규성 또는 정규성에 의해 대략적으로 추정되지 않습니다. 여기서 주장 할 효과의 "합계"나 "제품"은 없습니다. 특정 상황에서 특정 종류의 "법"에 대해 논쟁 할 수있는 다른 현상이 많이 있습니다.


12
+1. 같은 질문에 대한 심리적 인 대답이있을 수 있음 - 아주 그럴듯하게, 내보기에 - 당신의 인수 제안하기 시작 : 집단 사고 당신의 분야에서 모두가 정규 분포를 볼 때, 당신은 다른 말을 누구? 이것은 통계 절차가 보행 도구로 간주되어 출판을 위해 논문을 작성하는 데 필요하지만 본질적인 가치 나 관심이 거의없는 조사 분야에 특히 적합합니다.
whuber

2
구체적인 예를 들어, Quetelet은 BMI (Body Mass Index)를 발명 할 때 정규 분포 수량을 산출하는 방식으로 명시 적으로 그렇게했습니다. 우리는 여기에 대해 이야기 : stats.stackexchange.com/questions/64171/...
매트 크라우스에게

모두 가이 질문에 대답하기보다는이 질문을 회피하려고하는 것 같습니다.
Digio

Geary는 통계 학자 였으므로 정상이 신화라고 생각한 것은 놀라운 일이 아닙니다. 만약 그가 물리학 자라면 그는 다르게 볼 것입니다.
Aksakal

의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
Glen_b-복지 주 모니카

20

Poincaré가 말한 것처럼 Gabriel Lippmann (물리학 자, 노벨상 수상자) 의 유명한 말이 있습니다 .

[정규 분포]는 엄격한 공제로 얻을 수 없습니다. 추정 증거 중 일부는 끔찍하다 ...]. 그럼에도 불구하고 M. Lippmann이 언젠가 나에게 말한 것처럼 실험자들은 그것이 수학 이론이라고 상상하고 수학자들은 그것이 실험적 사실이라고 상상하기 때문에 모두가 그것을 믿는다.

-Henri Poincaré, Le calcul des Probabilités . 1896

[Cette loi] ne s'obtient pas de deséductions rigoureuses; 더하기 dune démonstration qu'on voulu en donner est grossière [...]. Mt Lippmann, 자동차 체험가, 상상력을 갖춘 가장 까다로운 수학, 기타 수학 전문가가 가장 빠른 실험을 해보지 못하고 있습니다.

통계 견적 목록 스레드에이 견적이없는 것 같습니다. 여기에 게시하는 것이 좋을 것 같습니다.


공감? 비밀리에 Poincare를 싫어하는 사람이 있습니까?
amoeba 말한다 Reinstate Monica

물리학 지식은 고등학교에서 배운 것과 끝납니다. 그러나 Gauss는 원래 물리학 의 일반 방정식 의 맥락에서 분포를 연구하지 않았 습니까? 가우스 오류가 일부 고전 물리학 모델에서 자연적으로 떨어질 나의 위키 백과 주신 느낌이었다
shadowtalker

2
우리는이 본 모토 의 저자로서 Lippmann을 더 존중해야합니다 . Gabriel Lippmann은 물리학에서 노벨상을 수상했습니다. (M. 여기서는 monsieur, naturellement를 의미합니다.)
Nick Cox

3
@ssdecontrol 내가 기억하는 것처럼 Gauss는 특히 천문학 및 측지학에서 관측의 정상적인 오류에 관심이 있었지만 그 가정이 의심 스럽다는 것을 알 정도로 똑똑했습니다. (예를 들어, 그는 1816 년에 확산에 대한 저항 척도로 중앙값으로부터의 절대 절대 값을 사용했습니다.)
Nick Cox

충분합니다, @Nick. 명확히하기 위해 편집했습니다.
amoeba 말한다 Reinstate Monica

7

많은 자연 현상이 정규 분포를 갖도록 물리 법칙은 무엇입니까? 그들이 균일하게 분포하는 것이 더 직관적 인 것처럼 보일 것입니다.

정규 분포는 자연 과학에서 일반적인 장소입니다. 이 일어나는 이유는 일반적인 설명입니다 측정 오류 의 형태 통해 많은 수의 또는 보통 이렇게되면 중심 극한 정리 (CLT) 추론 : "실험 결과는 관련이없는 소스 CLT에서 오는 장애의 무한히 많은 수의 영향 때문에 오류가 정상적으로 분산 될 것을 제안합니다. " 예를 들어 다음 은 WJ Metzger의 데이터 분석 통계 방법에서 발췌 한 내용입니다 .

우리가 측정하는 대부분은 실제로 많은 rv의 합입니다. 예를 들어, 눈금자가있는 테이블의 길이를 측정합니다. 측정하는 길이는 광학 시차, 눈금자 보정, 온도, 손 떨림 등과 같은 많은 작은 영향에 따라 달라집니다. 디지털 미터는 회로의 다양한 위치에 전자 노이즈가 있습니다. 따라서 측정 대상은 측정하고자하는 대상 일뿐만 아니라 많은 (희망스럽게) 작은 기여도를 추가 한 것입니다. 이 작은 기부금이 많으면 CLT는 총합이 가우시안 분포라고 알려줍니다. 이것은 종종 그렇습니다. 해상도 함수가 일반적으로 가우시안 인 이유입니다.

그러나 이것이 반드시 알아야한다고해서 모든 분포가 정상적인 것은 아닙니다. 예를 들어, 포아송 분포는 계산 과정을 다룰 때 물리학에서 일반적입니다. 분광학에서는 방사선 스펙트럼의 모양 등을 설명하기 위해 Cauchy (일명 Breit Wigner) 분포가 사용됩니다.

나는 이것을 작성한 후에 이것을 깨달았다 : 지금까지 언급 한 3 가지 분포 (Gaussian, Poisson, Cauchy)는 모두 안정된 분포 이며, Poisson은 불 연속적 이다. 이제 이것에 대해 생각 했으므로 집계에서 살아남을 수있는 분포의 중요한 품질 인 것 같습니다 .Poisson에서 많은 수를 더하면 합계는 Poisson입니다. 이것은 왜 유비쿼터스인지 "설명"할 수도 있습니다.

부 자연스러운 과학에서는 다양한 이유로 정규 (또는 다른) 분포를 적용하는 데 매우주의해야합니다. 특히 상관 관계와 종속성은 CLT의 가정을 위반할 수 있으므로 문제가됩니다. 예를 들어, 금융 분야에서는 많은 시리즈가 정상적인 것처럼 보이지만 꼬리 가 훨씬 무거워 위험 관리에 큰 문제가되는 것으로 잘 알려져 있습니다.

마지막으로, 자연 과학에서 정규 분포를 갖는 이유는 앞서 언급 한 일종의 "손을 흔들며"추론보다 더 확실한 이유가 있습니다. 브라운 운동을 고려하십시오. 충격이 진정으로 독립적이고 무한한 경우, 불가피하게 관측 가능한 경로의 분포는 CLT로 인해 정규 분포를 갖습니다. 예를 들어 아인슈타인의 유명한 작품 " 브라운 운동 이론에 대한 조사 "에서 식 (10)을 참조하십시오 . 그는 오늘날의 이름 "Gaussian"또는 "normal"로 부르지도 않았다.

Δ엑스ΔΔ엑스Δ

따라서 다른 분야의 연구원들로부터 가우시안 분포 사용에 대해 매우 다른 반응을 보이는 것에 놀라지 마십시오. 물리학과 같은 일부 분야에서, 특정 현상은 막대한 양의 관측에 의해 뒷받침되는 매우 견고한 이론에 기초하여 가우스 분포와 자연스럽게 연결될 것으로 예상됩니다. 다른 분야에서는 정규 분포가 기술적 편리 성, 편리한 수학적 특성 또는 기타 의심스러운 이유로 사용됩니다.


1
+1. 따옴표는 합리적이지만 측정 된 길이는 음수 일 수 없으며 (즉, 제한됨) 실제로 정규 분포를 따를 수는 없습니다 . 항상 근사치입니다.
amoeba는

부 자연스러운 과학? 프랑켄슈타인 박사의 말도 안되는 실험과 같은 의미입니까? ;-)
Sycorax는 Reinstate Monica가

1
@ user777, 그것은 노벨상 수상자 Landau농담입니다 : "과학은 세 가지 유형으로 나눌 수 있습니다 : 자연, 비 자연, 반 자연"
Aksakal

@ Aksakal :이 특정 링크가 잘못되었다고 생각합니다. 랜도는 과학은 "естественные, неестественные и противоестественные"( "сверхъестественные"대신)로 나뉜다 고 말했다. 그래도 번역 방법을 모릅니다.
amoeba는 Reinstate Monica가

@amoeba, 나는 "неестественные"를 "부 자연스러운"것으로 번역하고 있습니다. "сверхъестественные"는 "초자연적"이라고 생각합니다. 아마 러시아인이 나를 고칠 수 있습니다.
Aksakal

2

여기에 지나치게 복잡한 설명이 많이 있습니다 ...

그것이 나와 관련된 좋은 방법은 다음과 같습니다.

  1. 단일 다이를 굴리면 각 숫자 (1-6)를 굴릴 가능성이 동일하므로 PDF는 일정합니다.

  2. 주사위 두 개를 굴려 결과를 합하면 PDF는 더 이상 일정하지 않습니다. 이는 36 개의 조합이 있고 합계 범위는 2-12이기 때문입니다. 2의 가능성은 1 + 1의 고유 한 단일 조합입니다. 12의 가능성은 6 + 6의 단일 조합에서만 발생할 수 있다는 점에서 독특합니다. 이제 7을 보면 3 + 4, 5 + 2 및 6 + 1 (여러 조합)이 있습니다 ( 그리고 그 역 순열). 중간 값 (예 : 7)에서 벗어나면서 2와 12의 특이 조합에 도달 할 때까지 6과 8 등의 조합이 적습니다.이 예에서는 정규 분포가 명확하지 않지만 더 많은 다이 샘플을 더 많이 넣을수록 결과는 정규 분포를 향하는 경향이 있습니다.

  3. 따라서 랜덤 변이 (각각 고유 한 PDF를 가질 수 있음)에 따라 다양한 독립 변수를 합하면 결과 출력이 더 정규화되는 경향이 있습니다. 이를 식스 시그마 (Six Sigma) 용어로 '프로세스의 음성'이라고합니다. 이것이 우리가 시스템의 '공통 원인 변동'의 결과라고 부르는 것이므로, 결과가 정상으로 향하는 경향이 있다면, 우리는이 시스템을 '통계적 공정 관리'라고 부릅니다. 출력이 비정규 (비뚤어 지거나 이동) 인 경우, 시스템이 어떤 방식으로 결과를 편향시킨 '신호'가있는 '특별 원인 변동'이 적용됩니다.

희망이 도움이됩니다.


1

많은 자연 현상이 정규 분포를 갖도록 물리 법칙은 무엇입니까?

몰라. 반면에 나는 그것이 사실인지, 또는 실제로 '많은'이 무엇을 의미하는지 전혀 모른다.

그러나 문제를 약간 재정렬하면 정규 분포를 사용하여 고정 평균 및 분산이 있다고 생각되는 연속 수량 을 가정 (즉, 모형화 ) 할만한 충분한 이유 가 있습니다. 정규 분포는 이러한 순간 제약 조건에 따라 엔트로피를 최대화 한 결과이기 때문입니다. 대략적으로 말하면, 엔트로피는 불확실성의 척도이기 때문에 정규을 가장 비 확정적이거나 최대 불확실한 분포 형태의 선택으로 만듭니다.

이제 알려진 제한 조건에 따라 엔트로피를 최대화하여 분포를 선택해야한다는 아이디어는 실제로이를 충족시킬 수있는 방법의 수와 관련하여 일부 물리학적인 배경을 가지고 있습니다. 통계 역학에 대한 Jaynes가 여기에 표준 참조입니다.

이 경우 최대 엔트로피가 정규 분포에 동기를 부여하지만, 다른 종류의 구속 조건은 다른 분포 패밀리 (예 : 익숙한 지수, 포아송, 이항 등)로 이어질 수 있습니다.

Sivia and Skilling 2005 ch.5에는 직관적 인 토론이 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.