히스토그램에 종 모양의 곡선이 표시되면 데이터가 정상적으로 분포되어 있다고 말할 수 있습니까?


11

응답자 연령에 대한 히스토그램을 만들고 아주 멋진 종 모양의 곡선을 얻었으므로 분포가 정상이라고 결론을 내 렸습니다.

그런 다음 SPSS에서 n = 169로 정규성 검정을 실행했습니다 . Kolmogorov-Smirnov 검정 의 p- 값 (Sig.)이 0.05 미만이므로 데이터가 정규성 가정을 위반했습니다.

테스트에서 나이 분포가 정상이 아니라고 히스토그램이 종 모양의 곡선을 나타내는 이유는 무엇입니까? 어떤 결과를 따라야합니까?


8
왜 정규성을 테스트하고 있습니까?
Glen_b-복귀 모니카

6
이외에도 Glen_b의 우수한 주석 @Aksakal의 똑같이 우수한 않음 에도 연속적인 분포를 들어, 메모, KS는 평균과 SD 될 것을 요구하는 미리 공지 된 데이터로부터 추정 없다. 이것은 본질적으로 KS 테스트를 쓸모 없게 만듭니다. "Kolmogorov-Smirnov 테스트는 역사적인 호기심 일뿐입니다. 절대 사용해서는 안됩니다." (D' Agostino & Stephens, eds., 1986의 D' Agostino). 아니면 Shapiro-Wilks를 대신 사용하십시오.
Stephan Kolassa

6
@Stephan Kolassa 좋은 조언이지만 Shapiro-Wilk를 의미합니다. (MB Wilk 및 SS Wilks의 제안은 종종 혼란 스럽거나 혼란스러워집니다. 여기서 영어를 소지 한 것처럼 이상한 것을 사용하면 영어를 모국어로 사용하는 많은 사람들에게도 혼동에 기여할 수 있습니다.
Nick Cox

2
@StephanKolassa의 의견과 관련하여 Shapiro-Wilk가 최고의 정규성 검정입니까?를 참조하십시오 . ... 대답은 관심있는 대안에 따라 반드시 필요한 것은 아니지만 종종 좋은 선택입니다.
Silverfish

답변:


34

우리는 일반적으로 변수가 정확히 정규 분포 되는 것이 불가능하다는 것을 알고 있습니다 ...

정규 분포는 양 방향으로 연장되는 끝이 무한정 길다. 데이터가 이러한 극단에서 멀리 떨어져있을 가능성은 없지만 실제 정규 분포의 경우 물리적으로 가능해야합니다. 연령의 경우 정규 분포 모형은 데이터의 평균 위 또는 아래에 5 표준 편차가있을 가능성이 0이 아닌 확률을 예측합니다. 이는 0 미만 또는 150 이상과 같이 물리적으로 불가능한 연령에 해당합니다. 인구 피라미드는 당신이 나이에도 약 일반적으로 첫 번째 장소에서 분산.) 당신은 직관적으로 더 "보통 같은"분포를 따르는 수있는 높이 데이터를 가지고 마찬가지로 경우 것으로 예상하는 이유, 그것은 단지가 될 수 분명하지 않다 진정 높이가 0cm 이하 또는 300cm 이상일 경우 정상입니다.

때로는 데이터가 평균 0을 갖도록 중심을 설정 하여이 문제를 피할 수 있다고 제안했습니다. 그렇게하면 긍정적이고 부정적인 "중심 연령"이 가능합니다. 그러나 이것은 음의 값을 물리적으로 그럴듯하고 해석 가능하게 만들지 만 (음의 중심 값은 평균 아래에있는 실제 값에 해당함), 일단 일반 모델이 0이 아닌 확률로 물리적으로 불가능한 예측을 생성한다는 문제를 해결하지 못합니다. 모델링 된 "중심 연령"을 "실제 연령"으로 다시 디코딩합니다.

왜 시험을 귀찮게 하는가? 정확하지 않더라도 정규성은 여전히 ​​유용한 모델이 될 수 있습니다.

중요한 질문은 실제로 데이터가 정확히 정상인지 여부가 아닙니다 . 가설 검정을 실행하지 않아도 대부분의 상황에서 사실이 될 수없는 선험 을 알고 있습니다. 그러나 근사치가 사용자의 요구에 충분히 가까운 지 여부를 알고 있습니다 . 정규성 테스트가 본질적으로 쓸모가 없다는 질문을보십시오 . 정규 분포는 많은 목적을위한 편리한 근사치입니다. "정확한"경우는 거의 없지만 일반적으로 유용하기 위해 정확하게 정확할 필요는 없습니다. 정규 분포가 일반적으로 사람들의 키에 적합한 합리적인 모델이기를 기대하지만, 정규 분포가 사람들의 연령 모델로 이해되기 위해서는 좀 더 특이한 상황이 필요합니다.

실제로 정규성 테스트를 수행 할 필요가 있다고 생각되면 Kolmogorov-Smirnov가 최선의 선택이 아닐 수 있습니다. Shapiro-Wilk는 다양한 가능한 대안에 비해 강력한 성능을 가지고 있으며 사전에 실제 평균과 분산을 알 필요가 없다는 장점이 있습니다 . 그러나 작은 표본의 경우 정규성에서 상당히 큰 편차가 여전히 탐지되지 않을 수 있지만 큰 표본의 경우 정규성에서 매우 작은 (실용적으로는 관련이없는) 편차는 "매우 유의미한"것으로 나타날 수 있습니다 (낮은 p -값).

"벨 모양"이 반드시 정상적인 것은 아닙니다

"종 모양"데이터 (중간에서 최고점이며 꼬리에서 확률이 낮은 대칭 데이터)를 "정상"으로 생각한다고 들었습니다. 그러나 정규 분포에는 피크와 꼬리에 특정한 모양이 필요합니다. 언뜻보기에 비슷한 모양을 가진 다른 분포가 있습니다.이 분포는 "종 모양"으로 특성화되었지만 정상이 아닙니다. 당신이있어하지 않는 한 많은 데이터를, 당신은 그 "가 아니라 다른 이들처럼이 기성 유통 같다"구별 할 수 없을 수도있어. 당신은 많은 양의 데이터를 할 경우에, 당신은 가능성이 보이지 않는 찾을 수 있습니다 전혀 어떤 "기성"유통처럼! 그러나이 경우 많은 목적을 위해

"종 모양"분포의 갤러리

정규 분포는 당신이 사용하는 "종 모양"입니다; 코시는 예리한 피크 및 "무거운"테일 (즉, 더 가능성을 포함)을 갖는다 t의 분포 자유와 5도 사이 어딘가 온다 (통상은이 t 무한 DF 및 코시이 t 1 DF 너무 차종 감지하는); 라플라스 또는 이중 지수 분포는 PDF 정규 분포보다 예리한 피크 결과 백투백 두 재 스케일링 지수 분포로 형성되었다; 베타 분포예를 들어 끝이 무한대로 향하는 꼬리가 없으며 대신 날카로운 컷오프가 있지만 중간에 여전히 "혹"모양이있을 수 있습니다. 실제로 매개 변수를 사용하여 일종의 "뒤틀린 혹"또는 심지어 "U"모양을 얻을 수도 있습니다. 연결된 Wikipedia 페이지의 갤러리는 해당 배포의 유연성에 대해 매우 유익합니다. 마지막으로 삼각 분포 는 유한지지에 대한 또 다른 간단한 분포이며, 종종 위험 모델링에 사용됩니다.

이 분포들 중 어느 것도 여러분의 데이터를 정확하게 설명하지 못하고, 비슷한 모양을 가진 다른 많은 분포가 존재하지만, "중간 및 대칭 대칭은 정상적인 것"이라는 오해를 다루고 싶었습니다. 연령 데이터에 물리적 한계가 있기 때문에 나이 데이터가 중간에 "허가"된 경우 베타와 같은 유한 지원 분포 또는 삼각 분포가 정규 꼬리처럼 무한 꼬리를 갖는 것보다 더 나은 모형을 여전히 입증 할 수 있습니다. 데이터가 실제로 정규 분포되어 있더라도 표본 크기가 상당히 크지 않으면 막대 그래프가 클래식 "종"과 유사하지 않을 수 있습니다. Laplace와 같은 분포에서 얻은 표본조차도 pdf가 커스텀으로 인해 정상과 명확하게 구분됩니다.

다양한 샘플 크기의 일반 및 Laplace 샘플

R 코드

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

11

나이는 정규 분포에서 나올 수 없습니다. 논리적으로 생각하십시오 : 음수를 가질 수는 없지만 정규 분포는 음수를 허용합니다.

종 모양의 분포가 많이 있습니다. 종 모양으로 보이는 것이 정상이어야한다는 의미는 아닙니다.

데이터의 출처를 비롯하여 통계의 내용을 확실하게 알 수있는 방법이 없습니다. 모양은 단서입니다. 종 모양은 정규 분포의 한 가지 주장입니다. 또한 데이터를 이해하는 것이 매우 중요합니다. 나이와 같은 변수는 종종 비뚤어지게되어 정규성을 배제합니다. 언급 한 바와 같이 정규 분포에는 한계가 없지만 때로는 경계 변수에 사용됩니다. 예를 들어 평균 연령이 20 세이고 표준 편차가 1 인 경우 연령 <17 또는> 23의 확률은 0.3 % 미만입니다. 따라서 정규 분포가 근사치 일 수 있습니다 .

표본의 왜도 및 첨도를 고려하는 Jarque-Bera와 같은 정규성에 대한 통계 테스트를 실행할 수 있습니다. 첨도는 경우에 따라 중요 할 수 있습니다. 정규 분포를 사용하여 데이터를 모델링하지만 실제로 데이터가 뚱뚱한 꼬리 분포에서 나온 경우 자산의 위험과 가격을 과소 평가할 수 있으므로 재무에서 매우 중요합니다.

평균, 분산, 왜도, 첨도 등 나이와 키 데이터에 대한 설명 통계 나 히스토그램을보고하는 데 도움이됩니다.


도움을 주셔서 감사합니다. 특정 데이터가 정규 분포에서 나온다는 것을 알 수 있습니까? 예를 들어 나이가 정규 분포에서 나올 수 없다는 대답, 높이와 같은 다른 데이터는 어떻습니까? 알고 싶습니다. 이것에 익숙하지 않아서 개념을 오해 한 것 같습니다. 다시 한번 감사드립니다.
NoraNorad

4
그러나, 정규 분포가 종종 있다 으로 사용 근사 연령 등의 변수. 그리고 사용자가 정의 할 수 있기 때문에 문제가 정말 아닙니다 age_centred으로는 age - mean(age)당신은 몇 가지 긍정적 인 표준 편차, 음의 값으로, 평균 0의 변수가 있습니다. 그래서 나는 그것에 대해 그렇게 엄격하지 않을 것입니다.
Tim

3
당신은 사람들에게 부정적인 높이를 가질 수는 없지만 그것이 좋은 근사치라면 정상적으로 분포 된 것으로 높이를 묘사하는 데 장벽이되지 않습니다. 이 문제에 대해 왜 유한 한 측정에 무한 한계를 갖는 분포를 사용해야합니까? @Tim이 말했듯이 데이터와 목적이 주어지면 모든 것이 근사치입니다.
Nick Cox

1
정규 분포가 제한된 데이터에 대한 좋은 근사치 가 될 수 있다는 데 동의 하지만, 데이터가 정상인지 아닌지에 대한 의문이있었습니다.
Aksakal

@Tim이 언급 한 것처럼 평균을 중심으로 할 경우 고등학교 졸업시 나이는 정상적으로 분포 될 수 있으며 음수 값을 취할 수도 있습니다.
ui_90jax 2014
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.