정규 분포 및 단조 변환


9

자연에서 발생하는 많은 양이 정상적으로 분포된다고 들었습니다. 이것은 일반적으로 중앙 한계 정리를 사용하여 정당화됩니다. 즉, 많은 수의 iid 랜덤 변수를 평균화하면 정규 분포를 얻습니다. 따라서, 예를 들어, 다수의 유전자의 부가 효과에 의해 결정되는 형질은 유전자 값이 대략 iid 랜덤 변수와 유사하게 행동 할 수 있기 때문에 대략 정규 분포 될 수있다.

이제, 혼란스러워하는 것은 정규 분포의 속성이 단조로운 변환에서 분명히 변하지 않는다는 것입니다. 따라서, 단조 변환과 관련된 것을 측정하는 두 가지 방법이 있다면, (단조 변환이 선형이 아닌 한) 정규 분포를 가지지 않을 것입니다. 예를 들어 직경, 표면적 또는 부피별로 빗방울의 크기를 측정 할 수 있습니다. 모든 빗방울에 대해 유사한 모양을 가정하면 표면적은 지름의 제곱에 비례하고 부피는 지름의 입방체에 비례합니다. 따라서 이러한 모든 측정 방법을 정규 분포로 분배 할 수 없습니다.

그래서 제 질문은 분포가 정규화되는 특정 스케일링 방법 (즉, 단조 변환의 특정 선택)이 물리적 의미를 가져야하는지 여부입니다. 예를 들어, 높이를 정규 분포 또는 높이의 제곱, 높이의 로그 또는 제곱근으로 분포해야합니까? 신장에 영향을 미치는 과정을 이해함으로써 그 질문에 대답하는 방법이 있습니까?


내가 항상 이해했듯이, 중심 한계 정리는 많은 수의 iid 랜덤 변수를 평균화하는 것에 대해 무언가를 가정하지 않습니다. 오히려, 표본 추출 수단 일 때, 평균 분포는 표본 추출 대상의 기본 분포와 무관하게 정상이된다고 명시합니다. 따라서 귀하의 질문에 대한 선행자가 보유하는지 여부에 의문을 제기합니다.
Henrik

그러나 기본 분포의 분포에 관계없이 샘플링 평균이 정규화되면 '다수의 iid 랜덤 변수 평균화'라는 말이 우리에게 정규 분포를 얻는 것과 동일하지 않습니다. 나에게 그들은 동등한 진술처럼 보인다.

내 눈에 보이지 않습니다 (그러나 나는 다른 방법으로 확신하고 싶습니다). 한 경우 (CLT가 의미한다고 생각하는 경우) 한 분포에서 표본을 추출합니다. 그들의 수단은 일반적으로 배포됩니다. 내가 질문에서 이해하는 것과 "많은 수의 iid 랜덤 변수 평균"이라는 말은 sth 다릅니다. 다른 iid 랜덤 변수의 개별 인스턴스화는 특성을 결정 (또는 구성)합니다. 따라서 단일 분포에서 평균화 (즉, 평균 계산)가 없으므로 CLT를 적용하지 않습니다. mbq의 답변이 같은 문제를 지적한다고 생각합니다.
Henrik

1
일부 조건이 유지되는 경우 분포가 동일 할 필요는 없습니다. 참조 : en.wikipedia.org/wiki/…

1
@Henrik N 개의 독립적이고 동일하게 분포 된 RV 의 단일 샘플 과 단일 RV의 N 개의 독립적 인 측정 간에 의미있는 차이가 있습니까?
워키 토키

답변:


5

아주 좋은 질문입니다. 답은 문제의 측정을 일으키는 기본 프로세스를 식별 할 수 있는지 여부에 달려 있다고 생각합니다. 예를 들어, 키가 여러 요소 (예 : 부모의 키, 조부모의 키 등)의 선형 조합이라는 증거가있는 경우 키가 정상적으로 분포되어 있다고 가정하는 것이 당연합니다. 반면에 높이 로그가 여러 변수 (예 : 로그 부모 높이, 조부모 높이 로그 등)의 선형 조합이라는 증거 또는 이론이있는 경우 높이 로그가 정상적으로 분포됩니다.

대부분의 상황에서 관심 측정을 수행하는 기본 프로세스를 모릅니다. 따라서 여러 가지 중 하나를 수행 할 수 있습니다.

(a) 높이의 경험적 분포가 정상으로 보이는 경우 우리는 높이가 여러 변수의 선형 조합이라고 암시 적으로 가정하는 추가 분석을 위해 정규 밀도를 사용합니다.

(b) 경험적 분포가 정상적으로 보이지 않으면 mbq 에서 제안한대로 변형을 시도 할 수 있습니다 (예 : log (height)). 이 경우 변환 된 변수 (즉, log (height))가 여러 변수의 선형 조합이라고 암시 적으로 가정합니다.

(c) (a) 또는 (b)가 도움이되지 않으면 CLT와 정규성 가정이 제공하는 이점을 포기하고 다른 분포를 사용하여 변수를 모델링해야합니다.


5

특정 변수의 크기 조정은 가능한 경우 결과 모델을 해석 가능하게 만드는 데 도움이되는 이유 때문에 이해하기 쉬운 규모와 관련이 있어야합니다. 그러나 결과적인 변화는 물리적으로 중요 할 필요는 없습니다. 기본적으로 정규성 가정 위반과 모델의 해석 가능성 사이의 균형을 유지해야합니다. 이 상황에서 내가 좋아하는 것은 원래 데이터, 의미있는 방식으로 변환 된 데이터 및 가장 일반적인 방식으로 변환 된 데이터를 갖는 것입니다. 의미있는 방식으로 변환 된 데이터가 데이터를 가장 정상적인 방식으로 변환 할 때의 결과와 동일한 경우, 최적으로 변환 된 (및 / 또는 변환되지 않은) 데이터의 경우 결과가 동일하다는 점을 참고로 해석 할 수있는 방식으로보고합니다. 변환되지 않은 데이터가 특히 열악하게 작동하는 경우 변환 된 데이터를 사용하여 분석을 수행하지만 변환되지 않은 단위로 결과를보고하기 위해 최선을 다합니다.

또한, "자연에서 발생하는 양은 일반적으로 분포되어있다"는 진술에 오해가 있다고 생각합니다. 이는 값이 독립적 인 여러 요소의 "추가 효과에 의해 결정되는"경우에만 적용됩니다. 즉, 평균과 합은 원래의 분포에 관계없이 일반적으로 분포되며 개별 값은 정규 분포가 될 것으로 예상되지 않습니다. 예를 들어, 이항 분포의 개별 추첨은 모든 정상을 보지 않지만 이항 분포의 30 추첨의 분포는 다소 정상적인 것으로 보입니다.


5

나는 당신의 질문을 정말로 이해하지 못한다는 것을 인정해야합니다.

  • 빗방울 예제는 가우시안 동작이 "다수의 iid 랜덤 변수의 평균"에서 나온다는 사실을 나타내지 않기 때문에 만족스럽지 않습니다.

  • 수량이 엑스 당신이 관심이 있다는 것은 평균입니다 와이1++와이 가우스 방식으로 평균 주위에서 변동하는 경우 에프(와이1)++에프(와이) 가우스 동작이 있습니다.

  • 의 변동이 엑스 평균은 대략 가우시안이고 작습니다. 에프(엑스) 평균 주위 (테일러 확장)

  • 평균화에서 나오는 (실제) 가우스 동작의 실제 예를 인용 할 수 있습니까? 가우시안 거동은 계산에서 다루기가 매우 쉽기 때문에 통계에서 종종 대략적인 첫 번째 근사치로 사용됩니다. 물리학자가 고조파 근사법을 사용함에 따라 통계학자는 가우스 근사법을 사용합니다.


최대 엔트로피 원리는 가우시안 분포가 사용되는 또 다른 이유입니다. 예를 들어, 다루기 쉬움을 제외하고 선형 모델에서 가우시안 오차를 사용하는 좋은 이유는 무엇입니까?
Alekk

5

Vipul, 당신은 당신의 질문에 완전히 정확하지 않습니다.

이것은 일반적으로 중앙 한계 정리를 사용하여 정당화됩니다. 즉, 많은 수의 iid 랜덤 변수를 평균화하면 정규 분포를 얻습니다.

나는 이것이 당신이 말하는 것임을 전적으로 확신하지는 않지만 예제의 빗방울은 iid 임의 변수가 아니라는 것을 명심하십시오. 특정 수의 빗방울을 샘플링하여 계산 한 평균은 임의의 변수이며, 평균이 충분히 큰 표본 크기를 사용하여 계산 될 때 해당 표본 평균의 분포는 정상입니다.

많은 수의 법칙에 따르면 해당 표본의 평균 값은 모집단의 평균 값으로 수렴합니다 (수렴 유형에 따라 강하거나 약함).

CLT에 따르면 표본 평균은 랜덤 변수 인 XM (n)이라고하며 분포는 G (n)이라고합니다. n이 무한대에 가까워 질수록 그 분포는 정규 분포입니다. CLT는 기본 개념이 아니라 배포의 수렴에 관한 것 입니다.

당신이 그린 관측치 (직경, 면적, 부피)는 전혀 정상일 필요는 없습니다. 당신이 그들을 꾸미면 아마 아닐 것입니다. 그러나 세 가지 관측을 모두 수행 한 표본 평균은 정규 분포를 갖습니다. 그리고 부피는 지름의 정육면체가 아니고 면적이 지름의 제곱도 아닙니다. 운이 좋지 않으면 합계의 제곱은 제곱의 합계가되지 않습니다.


4

단순히 CLT (또는 다른 정리)는 우주의 모든 수량이 정상적으로 분포되어 있다고 명시하지 않습니다. 실제로 통계학자는 종종 단조 변환을 사용하여 정규성을 개선하므로 선호하는 도구를 사용할 수 있습니다.


4

나는 당신이 정규 분포의 통계학자가 사용하는 것을 이해하지 못했다고 생각하지만 나는 당신의 질문을 정말로 좋아합니다.

나는 체계적으로 정규성을 가정하는 것이 좋은 생각이라고 생각하지 않으며 검증없이 언젠가는 정상 분포가 가능하기 때문에 언젠가 완료된다는 것을 인정합니다. 따라서 단조로운지도에 대한 당신의 발언은 훌륭합니다!

그러나 평등의 강력한 사용은 경험의 평균같은 경험적 반향을 적용 할 때 나타나는 통계와 같은 새로운 통계를 구성 할 때 발생합니다 . 따라서 경험적 평균과 일반적으로 평활화는 모든 곳에서 정상이 나타나게하는 것입니다 ...


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.