가설 정규 데이터에 대한 가설 검정을 수행 할 수 있습니까?


11

원래 데이터가 정상적으로 배포되었다고 생각한 데이터 모음이 있습니다. 그런 다음 실제로 그것을 보았고 데이터가 왜곡되어 있기 때문에 그렇지 않다는 것을 깨달았으며 샤피로 윌크스 테스트도했습니다.

통계 방법을 사용하여 분석하고 싶기 때문에 왜곡 정규성에 대한 가설 검정을 원합니다.

따라서 비대칭 성을 테스트하는 방법이 있는지, 가능하면 테스트를 수행하는 라이브러리가 있는지 알고 싶습니다.

답변:


8

스큐 정규 분포에 데이터를 맞추는 방법에 관한 첫 번째 원리에서 최대 우도 추정값을 계산할 수 있습니다. 먼저 위치 모수 , 스케일 모수 및 모양 모수 를 갖는 기울기 정규 분포에 대한 확률 밀도 함수 는ω αξωα

2ωϕ(xξω)Φ(α(xξω))

여기서 는 표준 정규 밀도 함수이고 는 표준 정규 CDF입니다. 이 밀도는 이 질문에 대한 나의 답변에서 설명 된 클래스의 멤버입니다 .Φ ( )ϕ()Φ()

이 분포에서 독립적 인 관측치 샘플을 기반으로하는 로그 우도 는 다음과 같습니다.n

nlog(ω)+i=1nlogϕ(xξω)+logΦ(α(xξω))

이 MLE에 대해 닫힌 양식 솔루션이 없다는 사실입니다. 그러나 수치 적으로 해결할 수 있습니다. 예를 들어에서에서 R우도 함수를 다음과 같이 코딩 할 수 있습니다.

set.seed(2345)

# generate standard normal data, which is a special case
n = 100 
X = rnorm(n) 

# Calculate (negative) log likelihood for minimization
# P[1] is omega, P[2] is xi and P[3] is alpha
L = function(P)
{

    # positivity constraint on omega
    if( P[1] <= 0 ) return(Inf)

    S = 0
    for(i in 1:n) 
    {
        S = S - log( dnorm( (X[i] - P[2])/P[1] ) ) 
        S = S - log( pnorm( P[3]*(X[i] - P[2])/P[1] ) ) 
    }


    return(S + n*log(P[1]))
}

이제 우리는이 기능을 수치 적으로 최소화합니다 (즉, 가능성을 최대화합니다). 패키지 의 기본 구현 인 Simplex Algorithm 을 사용하여 미분을 계산하지 않고도이 작업을 수행 할 수 있습니다 .optim()R

왜도 검정 방법 : 을 제한 하고 우도 비 검정을 수행하여 왜도 법선 대 법선 (법선이 하위 모형이므로)을 명시 적으로 검정 할 수 있습니다 .α=0

# log likelihood constraining alpha=0. 
L2 = function(Q) L(c(Q[1],Q[2],0))

# log likelihood from the constrained model
-optim(c(1,1),L2)$value
[1] -202.8816

# log likelihood from the full model
-optim(c(1,1,1),L)$value
[1] -202.0064

# likelihood ratio test statistic
LRT = 2*(202.8816-202.0064)

# p-value under the null distribution (chi square 1)
1-pchisq(LRT,1)
[1] 0.1858265

따라서 우리는 귀무 가설을 (즉, 왜곡 되지 않음)으로 기각하지 않습니다 .α=0

정규 분포가 하위 모형이므로 비교가 간단했습니다. 다른,보다 일반적인 경우에, 당신은 예를 들어, 비교하여 다른 참조 배포판에 스큐 정상을 비교할 수, AIC 의 (다 같이 여기 ) 모든 경쟁 맞는에서 최대 우도 추정량을 사용하는 경우. 예를 들어, 감마 분포 및 스큐 법선 하에서 최대 가능성으로 데이터를 피팅하고 추가 된 가능성이 스큐 법선의 추가 된 복잡성을 정당화하는지 확인할 수 있습니다 (2 대신 3 개의 매개 변수). 또한 사용을 고려할 수있는 하나 개의 샘플 콜 모고 로프 스 미르 노프 테스트를 스큐 정상 가족에서 최상의 피팅 추정하여 데이터를 비교.


1
+1, 이것이 명확하고 철저하며 건설적인 답변이라고 생각합니다. 나는 AIC의 사용에 대한 마지막 단락에서 1 개의 nitpick / 걱정이있다. 내가 다양한 정보 기준을 가지고있는 문제는 모든 매개 변수가 모델이 데이터에 적합하도록 모델의 능력에 똑같이 기여한다고 가정한다는 것입니다. 다른 다중 회귀 모델을 평가할 때 이것이 좋습니다. 그러나 다른 유형의 분포를 살펴보면 모든 매개 변수가 동일한 유연성을 제공한다는 것이 분명하지 않습니다. 따라서 불편한 점이 있습니다. 이 문제에 대한 당신의 입장은 무엇입니까?
gung-Monica Monica 복원

+1 나는 Azzalini skew normal의 일부 문제에 대해 약간 걱정하고 있습니다 : (1) skewness 매개 변수 의 Fisher 정보 매트릭스는 에서 특이 합니다.이 시점에서 특히 문제가 될 때 우도 비 통계를 사용하는 것; (2) 의 프로파일 가능성 은 일반적으로 매우 평평합니다 . (3) 두 개의 변곡점이 있으며 의 관절 MLE가 일부 데이터 세트에 존재하지 않습니다. α = 0 α ( μ , σ , α )αα=0α(μ,σ,α)

@ gung, 이것은 좋은 지적입니다. 나는 다른 어떤 것을 사용할 수있는 것보다 AIC를 예제로 사용하고 있었지만 사람들이 AIC를 사용하여 다른 오차 분포와 모델을 비교하는 것을 보았습니다. 이는 모든 매개 변수가 "균등하게 만들어졌다"는 동일한 가정을 효과적으로 만듭니다. 이 주제에 관한 문헌을 보셨습니까? 관심이 있습니다.
매크로

@Procrastinator, 인 경우 정규 정규 분포를 하위 모형으로합니다. 피셔 정보를 뒤집지 않고이 비교를하는 것이 간단합니다. 재 : (2), 그래이는이 분포 왜도 달성의 수준 (maxes 밖으로 주위에 꽤 겸손 것 또한 사실 사실이다 로 발생 발산에 ), 언제가 있도록 데이터 세트는 의 가능성과 같은 기울기 수준을 표시합니다.± .9 α ± αα=0±.9α±αα

1
α

5

저는이 직업에서 30 년 넘게 일해온 통계 학자이며이 게시물을 읽기 전에 정규 분포의 왜곡에 대해 들어 본 적이 없습니다. 데이터가 치우친 경우 왜 로그 노멀이나 감마가 아닌 왜도를 보려고합니까? 감마, 로그 정규 또는 왜곡 법선과 같은 모수 분포 군을 가질 때마다 카이-제곱 또는 Kolmogorov-Smirnov와 같은 적합도 검정을 적용 할 수 있습니다.


5
아잘 리니 스큐 노멀 (Azzalini Skew Normal) 은 1985 년에 제안 된 인기있는 분포입니다. 전체 라인을 지원합니다.

1
@ Procrastinator 나는 지금 알고 있으며 아마도 전에는 들어 보았을 것입니다. 그러나 내 요점은 내가 그것을 듣지 못했기 때문에 다른 비뚤어진 분포보다 조금 더 모호하다는 것입니다. 시프트 매개 변수가 추가되면 [0.∞) 또는 {a, ∞) 만 지원하는 예제와 달리 실제 라인 전체에 대한 지원에 대한 요점을 얻습니다. 이러한 분포는 모두 데이터가 분포되는 방식을 설명하기위한 근사치입니다. 모든 음수 값이 가능하다는 것을 실제로 알고 있습니까? 실제로는 데이터의 하한과 상한이있을 수 있습니다.
Michael R. Chernick

1
@ Procrastinator 그것은 내 의견과 아무 관련이 없습니다. 나는 실제 데이터가 무제한 분포로 근사화 될 수있는 경우에도 종종 실제로 묶여 있다고 말합니다.
Michael R. Chernick

1
@ Procrastinator 확실하지 않습니다. 유한 한 수의 집합이 주어지면 데이터가 불연속 분포인지 또는 연속 분포인지 여부를 데이터에서 알 수 없습니다. 경계도 마찬가지입니다. 나는 데이터를 제외하고는 데이터가 제한적이고 연속적이거나 불연속 적인지 여부를 측정하는 것에 기초하여 엄격하게 알고 있다고 말합니다. 예를 들어 사람의 몸무게를 측정하는 경우 몸무게가 0보다 크고 5000 파운드와 같은 물리적 제한으로 인해 제한됩니다.
Michael R. Chernick

1
또한 무게 측정은 특정 소수점 이하 자릿수로만 결정될 수 있지만 무게를 연속적인 것으로 취급하는 것이 합리적입니다. 이제 동전을 10 번 뒤집으려면 머리 수는 0에서 10 사이의 정수 여야합니다 (이산 및 경계). 내 요점은 분포의 경계가 일반적으로 매우 분명하다는 것입니다. 연속 분포와 불연속 분포를 결정할 때 명확하지 않습니다.
Michael R. Chernick

1

결국 내 솔루션은 fGarch 패키지 를 다운로드하고 fGarch 에서 snormFit제공하여 매개 변수에 대한 MLE을 Skewed-Normal로 가져 오는 것입니다.

그런 다음 dsnormfGarch에서 제공 하는 기능을 사용하여 해당 매개 변수 를 Kolmogorov-Smirnov 테스트에 연결했습니다.


비모수 테스트 인 MLE과 Kolmogorov-Smirnov 테스트를 어떻게 결합 할 수 있습니까?

나는 내가하고있는 일을 전혀 모르고 맹목적으로 방황하고 있다고 지적하고 싶다 . 나는 KS가 카이 제곱처럼 작동한다고 가정했으며, 가지고있는 표본 데이터와 분포 자체의 차이점을 살펴 보았습니다. R의 ks.test는 먼저 표본 데이터와 분포에 대한 모수와 함께 분포를 받아들입니다. MLE를 매개 변수로 사용했습니다. 또한 Chi-squared의 작동 방식에 대한 저의 가정 / 거절도 잘못되었을 수 있습니다.
Squidly

H0:λ=0

H0=λ=0H0

1
@Procrastinator 경험적 cdf를 기반으로하는 적합도 검정이 많이 있습니다. Kolmogorov Smirnov는 하나입니다. 이 테스트는 경험적 cdf를 특정 분포와 비교하는 데 사용할 수 있습니다 (및 테스트 전에 알 수없는 모수를 추정 할 때의 조정으로). 예를 들어 정규 분포를 거부하면 분포가 어떻게 다른지 알 수 없습니다. KS 또는 스큐 정상에 대한 카이 제곱 검정을 공식적으로 그가 상당한 비대칭을 테스트 할 수 있습니다이 작업을 수행하고하고 싶어 조정은 여러 테스트를 위해 할 수있는 이유는 영업 이익과 잘난척합니다..?
마이클 R. Chernick

0

http://www.egyankosh.ac.in/bitstream/123456789/25807/1/Unit6.pdfhttp://en.wikipedia.org/wiki/Skewness를 확인 하십시오 .

Karl Pearson 테스트를 사용하여 왜도를 측정 할 수 있습니다. 표준 편차 큐브에 대한 세 번째 모멘트의 비율을 왜도 계수라고합니다. 대칭 분포는 왜도 = 0


2
내 데이터의 왜곡을 해결하고 싶지 않습니다. 비뚤어진 것을 알고 있습니다. 내 데이터가 기울기 정규 분포를 따르는 지 알고 싶습니다.
오징어

2
어떤 소프트웨어를 사용하든 R에는 ML 추정값을 계산하는 함수가 포함 된 패키지 'sn'(정상 왜곡)이 있습니다. 정확한 기능은 확실하지 않습니다 . R 패키지에 대한 자세한 내용은 이 사이트 azzalini.stat.unipd.it/SN 을 확인하십시오
NaN

0

SPSS에서는 왜도의 추정치를 얻을 수 있습니다 (분석 후 설명을 한 다음 왜도를 표시함으로써). 왜도의 점수와 SE (표준 오차)를 얻습니다. 왜도를 SE로 나누고 점수가 + -1.96 사이이면 일반적으로 치우칩니다. 비뚤어지지 않으면 많은 비모수 적 테스트가 있습니다! 행운과 최고!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.