Leptokurtic 분포를 정규로 변환하는 방법은 무엇입니까?


12

정규성으로 변환하고 싶은 leptokurtic 변수가 있다고 가정합니다. 이 작업을 수행 할 수있는 변형은 무엇입니까? 데이터 변환이 항상 바람직하지는 않지만 학업을 추구함에 따라 데이터를 정상으로 "해머링"한다고 가정합니다. 또한 그림에서 알 수 있듯이 모든 값은 엄격하게 양수입니다.

나는 포함하여 내가 전에 사용 보았다 변환의 다양한 (거의 아무것도 시도 등)이지만 특히 잘 작동하지는 않습니다. 렙 토쿠 르틱 분포를 더 정상적으로 만들기위한 잘 알려진 변형이 있습니까?1X,X,asinh(X)

아래의 일반 QQ 플롯 예를 참조하십시오.

여기에 이미지 설명을 입력하십시오


5
확률 적분 변환에 익숙 하십니까? 이 사이트의 실제 스레드 를 보려면 몇 개의 스레드에서 호출되었습니다 .
whuber

8

1
어, 그 platykurtic을 뭐라고 부릅니까? 내가 무언가를 놓치지 않으면, 그것은 정상보다 높은 첨도를 가진 것처럼 보입니다.
Glen_b-복지 주 모니카

3
@Glen_b 옳은 것 같아요 : leptokurtic입니다. 그러나이 두 용어는 Biometrika의 Student의 원래 만화를 참조 할 수있는 경우를 제외하고는 매우 어리 석습니다 . 기준은 첨도입니다. 값이 높거나 낮거나 (더 나은) 정량화됩니다.
Nick Cox

3
t6

답변:


12

나는 leptokurtic 데이터를 기술하고 변환하기 위해 두꺼운 꼬리 Lambert W x F 분포 를 사용합니다. 자세한 내용과 참조는 다음 게시물을 참조하십시오.

다음은 LambertW R 패키지 를 사용한 재현 가능한 예 입니다.

library(LambertW)
set.seed(1)
theta.tmp <- list(beta = c(2000, 400), delta = 0.2)
yy <- rLambertW(n = 100, distname = "normal", 
                theta = theta.tmp)

test_norm(yy)

원본 데이터의 정규성을 테스트

## $seed
## [1] 267509
## 
## $shapiro.wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  data.test
## W = 1, p-value = 0.008
## 
## 
## $shapiro.francia
## 
## 	Shapiro-Francia normality test
## 
## data:  data.test
## W = 1, p-value = 0.003
## 
## 
## $anderson.darling
## 
##  Anderson-Darling normality test
## 
## data:  data
## A = 1, p-value = 0.01

yy×XN(2000,400)δ=0.25

이제 귀하의 질문으로 돌아가십시오 :이 leptokurtic 데이터를 다시 정상적으로 만드는 방법? 음, 우리는 MLE (또는 순간 사용 방법)을 사용하여 분포의 모수를 추정 할 수 있습니다 IGMM().

mod.Lh <- MLE_LambertW(yy, distname = "normal", type = "h")
summary(mod.Lh)

## Call: MLE_LambertW(y = yy, distname = "normal", type = "h")
## Estimation method: MLE
## Input distribution: normal
## 
##  Parameter estimates:
##        Estimate  Std. Error  t value Pr(>|t|)    
## mu     2.05e+03    4.03e+01    50.88   <2e-16 ***
## sigma  3.64e+02    4.36e+01     8.37   <2e-16 ***
## delta  1.64e-01    7.84e-02     2.09    0.037 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## -------------------------------------------------------------- 
## 
## Given these input parameter estimates the moments of the output random variable are 
##   (assuming Gaussian input): 
##  mu_y = 2052; sigma_y = 491; skewness = 0; kurtosis = 13.

W_delta()X

# get_input() handles does the right transformations automatically based on
# estimates in mod.Lh
xx <- get_input(mod.Lh)
test_norm(xx)

가우시안 화 된 데이터의 정규성을 테스트

## $seed
## [1] 218646
## 
## $shapiro.wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  data.test
## W = 1, p-value = 1
## 
## 
## $shapiro.francia
## 
## 	Shapiro-Francia normality test
## 
## data:  data.test
## W = 1, p-value = 1
## 
## 
## $anderson.darling
## 
##  Anderson-Darling normality test
## 
## data:  data
## A = 0.1, p-value = 1

짜잔!


: 나는 팬, 그리고에 시작 일이야 파이썬의 버전과 같은 scikit 배우기 github.com/gregversteeg/gaussianize
그렉 버전 슈 테크

Georg를 사용하면 변환이 어떻게 작동하는지보다 직관적으로 설명 할 수 있습니까?
azuric

Z=Uexp(δ/2U2)Uδ>0Z

9

sign(.)abs(.)13Ymedian(Y)

큐브 루트 변환이 제대로 수행되지 않았지만 제곱근과 더 모호한 3/4 루트가 잘 작동합니다.

다음은 원래 질문에서 leptokurtic 변수의 QQ 플롯에 해당하는 원래 커널 밀도 플롯입니다.

여기에 이미지 설명을 입력하십시오


편차에 제곱근 변환을 적용한 후 QQ 그림은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

더 낫지 만 더 가까이있을 수 있습니다.


좀 더 망치면 3/4 근의 변형을 편차에 적용하면 다음과 같습니다.

여기에 이미지 설명을 입력하십시오


이 변환 된 변수의 최종 커널 밀도는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

나에게 가까이 보인다.


8

대부분의 경우, 정규에 가까운 결과를 생성하는 단순 형태의 단조로운 변환이 없을 수 있습니다.

예를 들어, 다양한 모수의 대수 정규 분포의 유한 혼합물 인 분포가 있다고 가정합니다. 로그 변환은 혼합물의 구성 요소를 정규로 변환하지만 변환 된 데이터의 정규 혼합은 정상이 아닌 것으로 남습니다.

또는 비교적 좋은 변환이 있지만 시도 할 양식 중 하나가 아닐 수도 있습니다. 데이터의 분포를 모르면 찾을 수 없습니다. 예를 들어, 데이터가 감마 분포 된 경우 분포가 무엇인지 정확하게 알려주지 않으면 정확한 정규 변환을 찾을 수 없습니다 (확실히 존재 함). 경우 모양 매개 변수가 너무 작지 않으면 정상에 가깝습니다.

데이터가 합리적으로 변형되는 것처럼 보일 수 있지만 명백한 변환 목록에는 적합하지 않은 무수한 방법이 있습니다.

데이터에 대한 액세스 권한을 부여 할 수 있다면 문제가 발생하는 변형을 발견하거나 찾을 수없는 이유를 알려줄 수 있습니다.

시각적 인 인상만으로도 크기가 다른 두 법선이 혼합 된 것처럼 보입니다. 우연히 쉽게 관찰 할 수있는 비대칭에 대한 힌트 만 있습니다. 다음은 일반적인 평균을 가진 두 개의 법선이 혼합 된 샘플의 예입니다. 플롯과 매우 비슷하게 보입니다 (그러나 다른 샘플은 더 무겁거나 밝게 보일 수 있습니다).이 샘플 크기에는 순서에 많은 변화가 있습니다 평균의 1 sd를 벗어난 통계).

여기에 이미지 설명을 입력하십시오

사실 여기에 당신과 내 것이 겹쳐져 있습니다.

여기에 이미지 설명을 입력하십시오


그것은 분명히 다른 규모의 두 정규 분포, 우수한 관측의 혼합처럼 보입니다.
Underminer
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.