정상이란 무엇입니까?


답변:


29

정규성의 가정은 기본 관심 랜덤 변수정상적으로 분포되어 있다고 가정합니다 . 직관적으로, 정규성은 다수의 독립적 인 랜덤 사건의 합의 결과로 이해 될 수있다.

보다 구체적으로, 정규 분포는 다음 함수에 의해 정의됩니다.

대체 텍스트

여기서 및 는 각각 평균과 분산이며 다음과 같이 나타납니다.μσ2

대체 텍스트

이것은 여러 가지 방법 으로 확인할 수 있으며, n의 크기와 같은 기능으로 인해 문제에 적합 할 수도 있습니다. 기본적으로 분포가 정상일 경우 예상되는 특성 (예 : 예상 Quantile 분포 ) 을 모두 테스트합니다 .


33

한 가지 참고 사항 : 정규성의 가정은 종종 변수에 대한 것이 아니라 잔차에 의해 추정되는 오차에 관한 것입니다. 예를 들어, 선형 회귀에서 Y e와이=에이+엑스+이자형 ; 가 정규 분포 를 는 가정은 없으며 , 만 있다고 가정합니다 .Y이자형


16
+1. 마지막으로 누군가가이 질문의 가장 중요한 측면이 무엇인지 지적했습니다. 대부분의 상황에서 "정규성"은 모집단의 분포가 아니라 잔차 또는 통계 분포의 샘플링과 관련하여 중요합니다!
whuber

4
나는 경우에 것을 추가 할 정규 분포, 다음, Y는 적어도 아니라 조건부 정상입니다. 나는 이것이 놓친 것이라고 생각합니다. 사람들은 Y가 약간 정상이지만 실제로는 조건부 정상 이라고 생각 합니다. 가장 간단한 예는 일원 분산 분석입니다. e
확률 론적

조건부로 무엇에?
bill_e

1
@bill_e 독립 변수
Glen_b-복지국 모니카

10

이와 관련된 문제가 발견 될 수있다 여기에 (우리가 데이터에 대한 사전 지식이없는 경우보다 일반적으로 데이터 나) 일반 오류의 가정에 대해.

원래,

  1. 정규 분포를 사용하는 것이 수학적으로 편리합니다. (최소 제곱 피팅과 관련이 있으며 의사 역수로 쉽게 해결할 수 있습니다)
  2. 중앙 한계 정리 (Central Limit Theorem)로 인해 프로세스에 영향을 미치는 기본 사실이 많고 이러한 개별 효과의 합이 정규 분포처럼 행동하는 경향이 있다고 가정 할 수 있습니다. 실제로는 그렇습니다.

Terence Tao가 말한 것처럼 중요한 점은 여기 에서 "거의 말로,이 정리는 통계적으로 하나의 구성 요소가 전체적으로 결정적인 영향을 미치지 않는 많은 독립적이고 무작위로 변동하는 구성 요소의 조합을 취한다고 주장합니다. 통계는 정규 분포라고하는 법에 따라 대략 분포 될 것입니다. "

이를 명확하게하기 위해 Python 코드 스 니펫을 작성하겠습니다

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

랜덤 분포

지수 분포

균등 분포

도면에서 알 수있는 바와 같이, 결과 분포 (sum)는 개별 분포 유형에 관계없이 정규 분포를 향하는 경향이있다. 따라서 데이터의 기본 효과에 대한 정보가 충분하지 않으면 정규성 가정이 합리적입니다.


1
CLT는하지 않습니다 수 있도록 주어진 과정에서 개별 효과를 많이가 우리가 생각하는 - 우리가하는 경우 주어진 측정에 기여하지 않는 - 너무 의존하는 개별 요소가 많이 (이 있다는 것을 어느 것도 너무 많은 총의가 CLT를 호출하여 정규성을 가정하여 정당화 될 수 있습니다. 많은 기여를한다고 가정하면 CLT를 적용하기 전에 CLT의 결과가 아닙니다. 그렇지 않으면 실제로는 때로는 거의 사실 일 때 모든 것이 정상입니다.
Glen_b-복귀 모니카

5

정규성이 있는지 여부를 알 수 없으므로 거기에있는 가정을 만들어야합니다. 통계 테스트를 통해서만 정규성이 없음을 증명할 수 있습니다.

더 나쁜 것은 실제 데이터로 작업 할 때 데이터에 진정한 정규성이 없다는 것이 확실합니다.

즉, 통계 테스트는 항상 약간 편향됩니다. 문제는 편견과 함께 살 수 있는지 여부입니다. 그러기 위해서는 데이터와 통계 도구가 가정하는 정규성을 이해해야합니다.

Frequentist 도구가 베이지안 도구와 같이 주관적인 이유입니다. 일반적으로 배포 된 데이터를 기반으로 결정할 수 없습니다. 정상이라고 가정해야합니다.


5
통계를 사용하여 아무것도 증명할 수 없습니다. 증거는 정확해야합니다. 통계는 확률에 관한 것입니다. Chi 제곱의 ap = 0.99 결과조차도 기본 분포가 정상이 아님을 "증명"하지 않습니다. 정상일 가능성은 거의 없습니다.
xmjx

@ xmjx : 주어진 분포가 아마도 정규 분포라고 말할 수는 없습니다. 값의 99.99 %가 1이지만 값의 0.01 %가 1000000 인 분포가있는 경우 100 개의 값을 표본으로 추출하는 통계 검정으로 분포가 정규 분포를 잘못 알고 있음을 알 수 있습니다.
Christian

2
나는 통계 전문가가 많지 않으므로 이것은 어리석은 질문처럼 보일 수 있습니다 ... 데이터가 아닌 변수를 생성하는 기본 프로세스에 "진정한 정상 성"이 존재하지 않습니까? 어리석은 구별처럼 보일지 모르지만 아마도 영혼을 찾는 것을 구할 수도 있습니다. 수집 된 데이터가 정확히 정상이 아니지만 기본 랜덤 프로세스가 기본적으로 정상적인 방식으로 작동하는 경우 "편견에 따라 살기"로 결정할 수있는 상황입니까?
Jonathan

@Christian- "... 100 개의 값은 좋은 기회가있다 ..."라는 내 해킹으로 전혀 언급되지 않는다는 의견 : x = c (rep (1,99), rep (1000000,1)); ks.test (x, pnorm)> KS 테스트에서 정규성의 가정은 여전히 ​​"거부"됩니다.
rolando2

나는이 대답 (+1)을 좋아하지만 정규성의 가정으로 할 수있는 것에 대해 약간 비관적입니다. 일반적으로 모든 모델링에 적합한 출발점이며 정규 분포 랜덤 변수의 혼합 또는 함수를 사용하여 매우 광범위한 분포로 일반화 할 수 있습니다.
chanceislogic

4

정규성 가정은 데이터가 정규 분포 (종 곡선 또는 가우스 분포) 인 것으로 가정합니다. 데이터를 플로팅하거나 첨도 (피크가 얼마나 예리한가) 및 왜도 (?) (피크의 한쪽에 절반이 넘는 데이터가있는 경우)에 대한 측정 값을 확인하여이를 확인할 수 있습니다.


2
정규성 가정을 충족시키기 위해 어떤 수준의 첨도 및 왜곡이 허용됩니까?
사자

5
대부분의 통계적 방법은 데이터가 아니라 정규 회귀를 가정합니다. 예를 들어 선형 회귀 분석에서의 오차 항은 가정 된 임의 변수가 아닙니다. 확인에는 원래 데이터가 아닌 잔차를 보는 ​​것이 포함됩니다!

3

다른 답변은 정상이 무엇인지 다루고 정상 테스트 방법을 제안했습니다. 그리스도인은 실제로 완전한 정상이 거의 존재하지 않는다는 점을 강조했습니다.

정규 성과의 편차를 관찰한다고해서 반드시 정규성을 가정하는 방법을 사용하지 않을 수도 있고 정규성 테스트가 그다지 유용하지 않을 수도 있음을 강조합니다.

  1. 데이터 수집 오류로 인해 특이 치가 정규성에서 벗어난 것일 수 있습니다. 대부분의 경우 데이터 수집 로그를 확인하면 이러한 수치를 수정할 수 있으며 정규성이 종종 향상됩니다.
  2. 큰 표본의 경우 정규성 테스트는 정규성에서 무시할만한 편차를 감지 할 수 있습니다.
  3. 정규성을 가정하는 방법은 비정규성에 강하고 수용 가능한 정확도의 결과를 제공 할 수 있습니다. t- 검정은 이러한 의미에서 강력한 것으로 알려져 있지만, F- 검정은 소스 가 아닙니다 ( 퍼머 링크 ) . 특정 방법에 대해서는 견고성에 대한 문헌을 확인하는 것이 가장 좋습니다.

1
정규성이 좋은 가정 인 이유는 데이터의 상대적 사용이 부족하기 때문이라고 생각합니다. 정규 분포를 추정하는 데 처음 두 순간 만 사용됩니다. 이것은 최소 제곱 모델의 진단 검사를 매우 쉽게 만듭니다. 기본적으로 충분한 통계에 영향을 줄 수있는 이상 치를 찾습니다.
확률 론적

3

와이=μ+엑스β+ϵϵσ2ϵ 3) 관측치의 독립성.

이 세 가지 가정 중 2)와 3)은 1)보다 대부분 매우 중요합니다! 그래서 당신은 그들과 더 자신을 선점해야합니다. 조지 박스 (George Box)는 ""분산에 대한 예비 테스트를하는 것은 해상 라이너가 항구를 떠날 수있는 조건이 충분히 평온한 지 알아 내기 위해 행 보트를 타고 바다에 들어가는 것과 같다 "고 말했다. -분산에 대한 정규성 및 검정 ", 1953, Biometrika 40, 318-335 페이지]"

이는 동일하지 않은 분산이 큰 관심사이지만 실제로는 검정이 비정규성에 의해 영향을 받아 평균 검정에 중요하지 않기 때문에 실제로 검정하기가 매우 어렵다는 것을 의미합니다. 오늘날, 불분명 한 분산에 대한 비모수 적 테스트가 확실하게 사용되어야합니다.

요컨대, 불균형 한 분산에 대한 우선 순위를 정한 다음 정규성에 대해 선점하십시오. 그들에 대해 의견을 말하면 정상에 대해 생각할 수 있습니다!

다음은 좋은 조언입니다. http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt


나는 나의 해석이 옳다고 확신한다. Box는 또한 Box, Hunter & Hunter : Experimenter for Statisticsers에서 자세히 읽은이 글에 대해 긴 글을 썼습니다. 그러나 이제 나는 내가 쓴 것에 대해 내가 의미하는 것이 아니라는 것을 알았습니다. 동일하지 않은 분산은 정규성보다 훨씬 중요합니다. 물론, 독립은 모든 가정의 어머니입니다.
kjetil b halvorsen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.