답변:
한 가지 참고 사항 : 정규성의 가정은 종종 변수에 대한 것이 아니라 잔차에 의해 추정되는 오차에 관한 것입니다. 예를 들어, 선형 회귀에서 Y e ; 가 정규 분포 를 는 가정은 없으며 , 만 있다고 가정합니다 .
이와 관련된 문제가 발견 될 수있다 여기에 (우리가 데이터에 대한 사전 지식이없는 경우보다 일반적으로 데이터 나) 일반 오류의 가정에 대해.
원래,
Terence Tao가 말한 것처럼 중요한 점은 여기 에서 "거의 말로,이 정리는 통계적으로 하나의 구성 요소가 전체적으로 결정적인 영향을 미치지 않는 많은 독립적이고 무작위로 변동하는 구성 요소의 조합을 취한다고 주장합니다. 통계는 정규 분포라고하는 법에 따라 대략 분포 될 것입니다. "
이를 명확하게하기 위해 Python 코드 스 니펫을 작성하겠습니다
# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem
@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""
import scipy, scipy.stats
import numpy as np
import pylab
#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random
y = y / sum(y);
N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)
# Plotting details
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])
#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
y = np.convolve(y,y)
y = y / sum(y);
x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
ax = pylab.subplot(N+1,1,i+1)
pylab.plot(x,y)
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_xticks([2**i * 10])
ax.set_yticks([round(np.max(y),3)])
pylab.show()
도면에서 알 수있는 바와 같이, 결과 분포 (sum)는 개별 분포 유형에 관계없이 정규 분포를 향하는 경향이있다. 따라서 데이터의 기본 효과에 대한 정보가 충분하지 않으면 정규성 가정이 합리적입니다.
정규성이 있는지 여부를 알 수 없으므로 거기에있는 가정을 만들어야합니다. 통계 테스트를 통해서만 정규성이 없음을 증명할 수 있습니다.
더 나쁜 것은 실제 데이터로 작업 할 때 데이터에 진정한 정규성이 없다는 것이 확실합니다.
즉, 통계 테스트는 항상 약간 편향됩니다. 문제는 편견과 함께 살 수 있는지 여부입니다. 그러기 위해서는 데이터와 통계 도구가 가정하는 정규성을 이해해야합니다.
Frequentist 도구가 베이지안 도구와 같이 주관적인 이유입니다. 일반적으로 배포 된 데이터를 기반으로 결정할 수 없습니다. 정상이라고 가정해야합니다.
정규성 가정은 데이터가 정규 분포 (종 곡선 또는 가우스 분포) 인 것으로 가정합니다. 데이터를 플로팅하거나 첨도 (피크가 얼마나 예리한가) 및 왜도 (?) (피크의 한쪽에 절반이 넘는 데이터가있는 경우)에 대한 측정 값을 확인하여이를 확인할 수 있습니다.
다른 답변은 정상이 무엇인지 다루고 정상 테스트 방법을 제안했습니다. 그리스도인은 실제로 완전한 정상이 거의 존재하지 않는다는 점을 강조했습니다.
정규 성과의 편차를 관찰한다고해서 반드시 정규성을 가정하는 방법을 사용하지 않을 수도 있고 정규성 테스트가 그다지 유용하지 않을 수도 있음을 강조합니다.
의 3) 관측치의 독립성.
이 세 가지 가정 중 2)와 3)은 1)보다 대부분 매우 중요합니다! 그래서 당신은 그들과 더 자신을 선점해야합니다. 조지 박스 (George Box)는 ""분산에 대한 예비 테스트를하는 것은 해상 라이너가 항구를 떠날 수있는 조건이 충분히 평온한 지 알아 내기 위해 행 보트를 타고 바다에 들어가는 것과 같다 "고 말했다. -분산에 대한 정규성 및 검정 ", 1953, Biometrika 40, 318-335 페이지]"
이는 동일하지 않은 분산이 큰 관심사이지만 실제로는 검정이 비정규성에 의해 영향을 받아 평균 검정에 중요하지 않기 때문에 실제로 검정하기가 매우 어렵다는 것을 의미합니다. 오늘날, 불분명 한 분산에 대한 비모수 적 테스트가 확실하게 사용되어야합니다.
요컨대, 불균형 한 분산에 대한 우선 순위를 정한 다음 정규성에 대해 선점하십시오. 그들에 대해 의견을 말하면 정상에 대해 생각할 수 있습니다!
다음은 좋은 조언입니다. http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt