정규성 위반 정도에 대한 좋은 지수는 무엇이며 해당 지수에 어떤 설명 레이블을 첨부 할 수 있습니까?


12

문맥:

이전 질문에서 @Robbie는 약 600 건의 연구 에서 정규성 검정이 유의미한 비정규 성을 제안했지만 플롯은 정규 분포를 제안한 이유를 조사했습니다 . 몇몇 사람들은 정규성의 유의성 검정이 그다지 유용하지 않다고 지적했습니다. 작은 표본의 경우 이러한 테스트는 경미한 정상 위반을 탐지 할 수있는 힘이 크지 않으며 큰 표본의 경우 걱정할 정도로 작지 않은 정규성 위반을 감지합니다.

이 문제는 유의성 테스트 및 효과 크기에 대한 토론과 비슷합니다. 유의성 검정에만 초점을 맞추면 큰 표본이있을 때 실제 목적과 관련이없는 작은 효과를 감지 할 수 있으며 작은 표본의 경우 검정력이 충분하지 않습니다.

몇 가지 경우에 나는 교과서에서도 사람들에게 표본이 "너무 클 수있다"고 조언하는 것을 보았습니다. 작은 효과는 통계적으로 중요하기 때문입니다.

중요성 테스트 및 효과 크기와 관련하여, 효과의 유무에 대한 이진 결정 규칙에 집착하기보다는 관심 효과의 크기를 추정하는 데 중점을 두는 것이 간단한 해결책입니다. 효과 크기에 대한 신뢰 구간은 그러한 접근 방식 중 하나이거나 일부 형태의 베이지안 접근 방식을 채택 할 수 있습니다. 또한 다양한 연구 영역에서 "작은", "중간"및 "큰 효과"와 같은 휴리스틱 레이블을 적용하여 주어진 효과 크기가 실제로 의미에서 의미하는 바에 대한 아이디어를 구축합니다. 이는 또한 주어진 관심 파라미터를 추정 할 때 정확도를 최대화하기 위해 샘플 크기를 최대화하는 지능적인 권장 사항으로 이어집니다.

이것은 효과 크기의 신뢰 구간에 기초한 유사한 접근법이 가정 테스트, 특히 정규성 테스트와 관련하여 더 널리지지되지 않는 이유를 궁금하게 만듭니다.

질문:

  • 데이터가 정규성을 위반하는 정도의 가장 좋은 단일 지수는 무엇입니까?
  • 아니면 정상 위반의 여러 지표 (예 : 왜도, 첨도, 특이 치 유병률)에 대해 이야기하는 것이 더 낫습니까?
  • 지수에 대한 신뢰 구간을 어떻게 계산할 수 있습니까?
  • 정규성 위반 정도를 표시하기 위해 색인의 포인트에 어떤 종류의 구두 레이블을 지정할 수 있습니까 (예 : 온화, 보통, 강함, 극도 등)? 이러한 레이블의 목적은 정상 위반이 문제가 될 때 직관을 훈련하는 경험이 적은 분석가를 지원하는 것입니다.

5
매혹적인 질문.
rolando2

1

1
@NRH 동의합니다. 이것이 제가하는 것입니다. 그러나 나는 종종 플롯에서 비정규도를 판단하는 경험이 적은 연구원들에게 통계 컨설팅을 제공합니다. 다양한 질적 레이블이있는 색인이 시각적 직관 교육을 보완 할 수 있다고 생각했습니다.
Jeromy Anglim

답변:


13

A) 데이터가 정규성을 위반하는 정도의 가장 좋은 단일 지수는 무엇입니까?

B) 아니면 정상 위반의 여러 지표 (예 : 왜도, 첨도, 특이 치 유병률)에 대해 이야기하는 것이 더 낫습니까?

나는 B에 투표 할 것이다. 다른 위반은 다른 결과를 가져온다. 예를 들어 꼬리가 두꺼운 단봉 대칭 대칭 분포를 사용하면 CI가 매우 넓어지고 효과를 감지 할 수있는 힘이 줄어 듭니다. 그러나 평균은 여전히 ​​"일반적인"값에 도달합니다. 예를 들어, 치우친 분포의 경우 평균은 "일반적인 값"의 의미있는 지수가 아닐 수 있습니다.

C) 지수에 대한 신뢰 구간을 어떻게 계산할 수 있습니까 (또는 베이지안 접근)?

나는 베이지안 통계는 모르지만 고전적인 정규성 검정에 대해서는 Erceg-Hurn et al. (2008) [2] :

또 다른 문제는 가정 테스트에는 자체 가정이 있다는 것입니다. 정규성 테스트는 일반적으로 데이터가 동 질적이라고 가정합니다. 동질성 테스트에서는 데이터가 정규 분포를 따른다고 가정합니다. 정규성과 동질성 가정을 위반하면 가정 테스트의 유효성이 심각하게 손상 될 수 있습니다. 저명한 통계 학자들은 SPSS와 같은 소프트웨어에 내장 된 가정 테스트 (예 : Levene의 테스트, Kolmogorov-Smirnov 테스트)에 치명적인 결함이 있으며 이러한 테스트를 절대로 사용하지 말 것을 권장했습니다 (D' Agostino, 1986; Glass & Hopkins, 1996).

D) 정규성 위반 정도 (가벼움, 보통, 강함, 극도 등)를 나타 내기 위해 해당 지수의 포인트에 어떤 종류의 구두 레이블을 할당 할 수 있습니까?

Micceri (1989) [1]는 심리학에서 440 개의 대규모 데이터 세트를 분석했습니다. 그는 대칭과 꼬리 무게를 평가하고 기준과 레이블을 정의했습니다. 비대칭 레이블은 '상대 대칭'에서 '보통-> 극단-> 지수 비대칭'까지 다양합니다. 꼬리 무게의 레이블 범위는 '균일-> 가우시안 미만-> 가우시안 정보-> 보통-> 극단-> 이중 지수 오염'입니다. 각 분류는 여러 가지 강력한 기준을 기반으로합니다.

그는이 440 개 데이터 세트 중 28 %만이 상대적으로 대칭이며, 15 %만이 꼬리 무게와 관련하여 가우시안에 관한 것임을 발견했습니다. 따라서 논문의 좋은 제목 :

유니콘, 일반 곡선 및 기타 불가능한 생물

나는 RMicceri의 기준을 자동으로 평가하고 레이블을 인쇄 하는 함수를 작성했습니다 .

# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
    library(fBasics)
    QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))

    n <- length(x)
    x.s <- sort(x)
    U05 <- mean(x.s[(.95*n ):n])
    L05 <- mean(x.s[1:(.05*n)])
    U20 <- mean(x.s[(.80*n):n])
    L20 <- mean(x.s[1:(.20*n)])
    U50 <- mean(x.s[(.50*n):n])
    L50 <- mean(x.s[1:(.50*n)])
    M25 <- mean(x.s[(.375*n):(.625*n)])
    Q <- (U05 - L05)/(U50 - L50)
    Q1 <- (U20 - L20)/(U50 - L50)
    Q2 <- (U05 - M25)/(M25 - L05)

    # mean/median interval
    QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
    MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))

    SKEW <- skewness(x)
    if (plot==TRUE) plot(density(x))

    tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
    symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)

    cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
                         1.8, 2.3, 2.5, 2.8, 3.3,
                        1.6, 1.85, 1.93, 2, 2.3,
                        1.9, 2.5, 2.65, 2.73, 3.3,
                        1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)

    cat.sym <- matrix(c(0.31, 0.71, 2,
                        0.05, 0.18, 0.37,
                        1.25, 1.75, 4.70), ncol=3, nrow=3)


    ts <- c()
    for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}

    ss <- c()
    for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}

    tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")

    slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")

    cat("Tail weight indexes:\n")
    print(tail_weight)
    cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
    cat("\n\nAsymmetry indexes:\n")
    print(symmetry)
    cat(paste("\nMicceri category:", slabels[max(ss)]))

    tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
    sym.cat  <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)

    invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}

> micceri(rnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 2.86  2.42  1.88  2.59  1.76 

Micceri category: About Gaussian 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    0.01     0.00     1.00 

Micceri category: Relatively symmetric



> micceri(rt(10000, 8))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 3.19  2.57  1.94  2.81  1.79 

Micceri category: Extreme contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
   -0.03     0.00     0.98 

Micceri category: Relatively symmetric



> micceri(rlnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 6.24  4.30  2.67  3.72  1.93 

Micceri category: Double exponential contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    5.28     0.59     8.37 

Micceri category: Exponential asymmetry

[1] Micceri, T. (1989). 유니콘, 일반 곡선 및 기타 불가능한 생물. 심리 게시판, 105 , 156-166. 도 : 10.1037 / 0033-2909.105.1.156

[2] Erceg-Hurn, DM, & Mirosevich, VM (2008). 최신의 강력한 통계 방법 : 연구의 정확성과 힘을 극대화하는 쉬운 방법. 미국 심리학자, 63 , 591-601.


3
+1, 이것은 정말 좋은 답변입니다. 그러나 나는 1 포인트로 떨고 싶다. "꼬리가 두꺼운 단일 대칭 분포를 사용하면 CI가 매우 넓어지고 결과를 감지하는 힘을 줄일 수 있습니다"라고 말합니다. 부트 스트랩되지 않는 한 CI는 무증상 (정상적인 가정)을 기반으로하는 경향이 있으므로, dist가 뚱뚱한 꼬리를 가지고 있다는 사실은 CI의 폭이나 힘에 영향을 미치지 않습니다. 오히려, 경험적 커버리지 확률이 가정 된 커버리지 확률과 일치하지 않음을 의미 할 것이다.
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.