내 분포는 정상입니다. Kolmogorov-Smirnov 테스트가 동의하지 않습니다


15

필자는 일부 데이터의 정규성에 문제가 있습니다 .P = .0000에서는 정상적이지 않다고 말하는 Kolmogorov 테스트를 수행했지만 이해하지 못합니다. 첨도 = -0,024

다음은 매우 평범한 내 분포 그림입니다.

(저는 세 개의 점수를 가지고 있으며이 점수의 각 점수는 Kolmogorov 테스트에서 유의 한 p- 값으로 정상적이지 않습니다 ... 정말 이해가 안됩니다)

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오


11
그것이 정상임을 어떻게 알 수 있습니까? 나에게는 정상적이지 않습니다. 왼쪽으로 치우쳐 보입니다.
mark999

1
왜 정규성을 테스트하고 있습니까?
Jack Aidley

답변:


39
  1. 데이터가 정상이라고 주장 할 근거가 없습니다. 왜도 및 과도한 첨도가 모두 정확히 0 이더라도 하지 않습니다 의미 데이터가 정상입니다. 기대 값에서 멀리 떨어진 왜도 및 첨도는 비정규 성을 나타내지 만 대화는 유지되지 않습니다. 정규 분포와 같은 왜도 및 첨도를 갖는 비정규 분포가 있습니다. 여기에 예가 설명 되어 있으며 밀도는 다음과 같습니다.
    dgam 2.3

    보시다시피, 분명히 양봉입니다. 이 경우 분포는 대칭이므로 충분한 모멘트가 존재하는 한 일반적인 왜곡 측정 값은 0이됩니다 (실제로 모든 일반적인 측정 값이 적용됨). 첨도의 경우 평균에 가까운 영역에서 4 번째 모멘트에 대한 기여는 첨도를 작게 만드는 경향이 있지만 꼬리는 상대적으로 무겁기 때문에 더 커집니다. 바로 선택하면 첨도는 정상과 같은 값으로 나옵니다.

  2. 샘플 왜도는 실제로 -0.5 정도이며, 왼쪽으로 약간의 비대칭을 나타냅니다. 히스토그램과 QQ 플롯은 모두 약간 왼쪽으로 치우친 분포를 나타냅니다. (이러한 가벼운 왜곡은 일반적인 일반적인 이론 절차에서는 거의 문제가되지 않습니다.)

  3. 당신은 선험적 으로 동의하지 말아야 할 비정규성에 대한 몇 가지 다른 지표를보고 있습니다분포의 다른 측면을 고려하기 때문에 . 작고 약한 비정규 샘플의 경우 종종 동의하지 않습니다.


이제 큰 질문에 대해 : * 왜 당신은 정규성 테스트 하고 있습니까? *

[의견에 대한 답변으로 편집 :]

확실하지 않습니다. 분산 분석을 수행하기 전에해야합니다.

여기에는 여러 가지 사항이 있습니다.

나는. 정규성은 추론에 사용하는 경우 (예 : 가설 검정) 분산 분석의 가정이지만 더 큰 표본에서 비정규성에 특히 민감하지는 않습니다. 경미한 비정규 성은 거의 영향을받지 않으며 표본 크기가 분포를 증가시킬 수 있습니다. 비정규 상태가되고 테스트는 약간만 영향을받을 수 있습니다.

ii. 응답의 정상 성을 테스트하는 것 같습니다 (DV). DV 자체의 (무조건적) 분포는 ANOVA에서 정상으로 가정되지 않습니다. 조건부 분포에 대한 가정의 합리성을 평가하기 위해 잔차를 확인합니다 (즉, 정상으로 가정되는 모델의 오류 항). 즉, 올바른 것을 보지 않는 것 같습니다. 실제로, 잔차에 대한 검사가 수행되기 때문에 이전보다는 모델 피팅 후에 검사를 수행합니다.

iii. 공식 테스트는 쓸모가 없습니다. 여기서 중요한 문제는 '비정규도가 내 추론에 얼마나 영향을 미치는가?'라는 가설 테스트에서 실제로 응답하지 않는 문제입니다. 표본 크기가 커짐에 따라 검정에서 정규성과 사소한 차이를 감지 할 수있게되었으며 ANOVA의 유의 수준에 미치는 영향은 점점 더 작아집니다. 즉, 표본 크기가 합리적으로 큰 경우 정규성 검정은 대부분 표본 크기가 크다는 것을 의미하므로 걱정할 필요가 없습니다. 적어도 QQ 플롯을 사용하면 방법을 시각적으로 평가할 수 있습니다 그것이 아닌 정상.

iv. 합리적인 표본 크기에서 분산의 평등과 독립성과 같은 다른 가정은 일반적으로 경미한 비정규 성보다 훨씬 중요합니다. 다른 가정에 대해 먼저 걱정하십시오 ...하지만 공식적인 테스트는 올바른 질문에 답하지 않습니다

v. 가설 검정의 결과에 기초하여 분산 분석을 수행할지 아니면 다른 검정을 수행할지 선택하는 것은 가정이 유지되지 않는 것처럼 행동하기로 결정하는 것보다 더 나쁜 특성을 갖는 경향이 있습니다. (정상적인 것으로 추정 할 이유가 없다고 생각 될 때마다 사용할 수있는 정상으로 가정되지 않는 데이터에 대한 일원 분산 분석과 유사한 분석에 적합한 다양한 방법이 있습니다. 정상적인 상태에서 적절한 소프트웨어를 사용하면 피할 이유가 없습니다.)

[이 마지막 요점에 대한 참조가 있다고 생각하지만 지금은 찾을 수 없습니다. 내가 찾으면 돌아와서 넣으려고 노력할 것입니다]


히스토그램은 대략 최소 12 모드 48 최대 60을 표시하는 것으로 읽으므로 min to mode는 36, mode to max는 12입니다. 그러한 세부 사항을 너무 많이 읽어서는 안되지만 왼쪽 비대칭과 완전히 일치합니다.
Nick Cox

10

Kolmogorov-Smirnov Test는 표본 크기가 클 때 공정한 검정력을 가지므로 데이터가 정규성과 다르지 않다는 귀무 가설을 쉽게 기각 할 수 있습니다. 다시 말해,이 테스트는 대부분의 의도에 대해 정상이더라도 큰 표본에서 분포가 정상이 아님을 제안합니다.

t- 검정처럼 생각하십시오. 높이가 천분의 1 밀리미터 만 다른 두 모집단이있는 경우, 그 차이가 의미가 없더라도 엄청나게 큰 표본이 ​​통계적으로 다른 표본을 지원할 것입니다.

아마도 다른 방법을 사용하여 데이터의 정규성을 결정할 수 있습니다. 사용하는 도표는 비대칭 / 커트 시스 값뿐만 아니라 두 가지 좋은 예입니다.

이 다른 주제는 특히 관련이있는 것 같습니다 : 정규성 테스트가 '필수적으로 쓸모가 없습니까?'


오, 좋아, 이음새가 맞아, 내 샘플 크기가 꽤 큽니다 (n = 660), 거대한 샘플 크기에 의해 덜 편향되는 다른 테스트가 있습니까?
Boo

이 사이트에서 검색하면 관련 답변을 찾을 수 있습니다. stats.stackexchange.com/questions/12261/testing-normalit stats.stackexchange.com/questions/2492/…
Behacad

13
테스트는 샘플 크기가 커서 편향되지 않습니다.
Peter Flom-Monica Monica 복원

10

귀무 가설이 완전히 지정된 경우 Kolmogorov–Smirnov 검정은 분포가 없습니다. 데이터에서 평균 및 분산이 추정되는 경우 정규성을 검정 할 때 Lilliefors 변형을 사용해야합니다 (필요한 경우). 그것은 다른 답변을 얻는 것이 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.