거대한 첨도?


10

주가 지수에 대한 일일 수익률에 대한 설명 통계를 수행하고 있습니다. 즉, 과 P 2 가 각각 1 일과 2 일의 지수 수준 인 경우, l o g e ( P 212은 내가 사용하고있는 수익 (문헌에서 완전히 표준)입니다.영형이자형(21)

첨도는 이들 중 일부에서 거대합니다. 약 15 년의 일일 데이터를보고 있습니다 (약 시계열 관측치)26015

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

내 질문은 : 문제가 있습니까?

이 데이터에 대해 OLS 및 Quantile 회귀 분석과 Granger Causality 등 광범위한 시계열 분석을 수행하고 싶습니다.

내 반응 (의존적)과 예측 자 (회귀 기) 모두이 거대한 첨도 의이 속성을 갖습니다. 따라서 회귀 방정식의 양쪽에 이러한 반환 프로세스가 있습니다. 비정규 성이 방해로 넘쳐 흐르면 표준 오차 만 크게 분산시킬 수 있습니까?

(아마도 왜도 강력한 부트 스트랩이 필요합니까?)


3
1) 이것을 quant.stackexchange.com 사이트로 옮길 수 있습니다. 2) 문제 란 무엇입니까? 특이 치가 순간에 미치는 영향에 대한 전체 문헌이 있습니다. 과학보다는 예술 일 수도 있습니다.
John

2
"무슨 문제라도 있습니까?" 너무 애매하다 이 데이터로 무엇을하고 싶습니까? 당신의 거대한 쿠르 토스는 커다란 왼쪽으로 치우쳐 있습니다. log (p2 / p1) = log p2-log p1이므로 왼쪽으로 치우치면 이것이 매우 낮은 경우, 즉 일반적인 경우에 비해 p1이 p2보다 훨씬 높을 때가 몇 번 있었음을 나타냅니다. 파산하거나 그와 비슷한 회사 일 수 있습니다.
Peter Flom

죄송합니다. OP를 수정했습니다.

1
로그 반환은 일반적으로 치우치고 굵은 꼬리입니다. 이러한 이유로이 동작을 포착 할 수있는 유연한 배포를 고려하는 것이 좋습니다. 예를 들어 12를 참조하십시오 .

당신은 L-순간을 기반으로 kutosis의 조치에 대해 살펴해야
할보 르센 kjetil B

답변:


2

한 번 봐 가지고 무거운 꼬리 램버트 W를 F를 X 또는 램버트 W는 F의 X 왜곡 분포 시도를 (면책 조항 : 나는 저자입니다). R에서는 LambertW 패키지 로 구현 됩니다.

관련 게시물:

와이엑스

다음은 주식 펀드 수익률에 적용된 Lambert W x Gaussian 추정치의 예입니다.

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

시계열 플롯 주식 펀드

수익의 요약 측정 항목은 OP의 게시물과 비슷합니다 (극단하지는 않음).

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

대부분의 시리즈는 비정상적인 특성을 나타냅니다 (왜곡 및 / 또는 큰 첨도). 모멘트 추정기 ( IGMM) 방법을 사용하여 두꺼운 꼬리 Lambert W x 가우스 분포 (= Tukey 's h)를 사용하여 각 계열을 가우스 화합니다 .

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

가우스 화 된 수익률의 시계열 도표

시계열 도표는 꼬리가 훨씬 적고 시간이 지남에 따라 더 안정적인 변화를 보여줍니다 (일관되지는 않음). 가우시안 화 된 시계열에서 메트릭을 다시 계산하면 다음과 같은 결과가 나타납니다.

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMMGaussianize()scale()

단순 이변 량 회귀

아르 자형이자형에스이자형,아르 자형나는나는,

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

산점도 인도와 동유럽

원래 시리즈의 왼쪽 산점도는 강한 특이 치가 같은 날에 발생하지 않았지만 인도와 유럽에서는 다른 시간에 발생했음을 보여줍니다. 그 외에는 센터의 데이터 클라우드가 상관 관계 또는 부정적 / 긍정적 종속성을 지원하지 않는지 확실하지 않습니다. 특이 치가 분산 및 상관 추정치에 큰 영향을 미치기 때문에 두꺼운 꼬리가 제거 된 의존성을 살펴 보는 것이 좋습니다 (오른쪽 산점도). 여기에서 패턴이 훨씬 명확 해지고 인도와 동유럽 시장 사이의 긍정적 관계가 분명해집니다.

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

그레인저 인과성

V아르 자형(5)=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

그러나 가우시안 화 된 데이터의 경우 답이 다릅니다! 다음 테스트는 할 수 없다 "인도는 않습니다 H0을 거부 하지 EASTEU 그랜저 원인"하지만, 여전히 "EASTEU하지 인도 그랜저-유발하는"것을 거부합니다. 가우시안 화 된 데이터는 다음 날 유럽 시장이 인도 시장을 주도한다는 가설을 뒷받침합니다.

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

V아르 자형(5)


1

데이터에 더 잘 맞는 확률 분포 모델이 필요합니다. 때로는 정의 된 순간이 없습니다. 그러한 분포 중 하나는 Cauchy 분포입니다. Cauchy 분포는 중간 값을 예상 값으로 갖지만 안정적인 평균값과 안정적인 높은 모멘트는 없습니다. 이것은 데이터를 수집 할 때 실제 측정 값이 이상치처럼 보이지만 실제 측정 값이라는 것을 의미합니다. 예를 들어, 평균 분포가 0 인 두 개의 정규 분포 F와 G가 있고 F / G를 나누면 결과는 첫 번째 모멘트가 없으며 코시 분포입니다. 그래서 우리는 행복하게 데이터를 수집하고 5,3,9,6,2,4처럼 좋아 보이고 안정적으로 보이는 평균을 계산 한 다음 갑자기 -32739876 값을 얻고 평균 값은 의미가 없습니다. 그러나 중앙값은 4이며 안정적입니다. 그것은 긴 꼬리 분포와 함께입니다.

편집 : 2 자유도를 사용하여 학생의 t- 분포를 시도 할 수 있습니다. 이 분포는 정규 분포보다 꼬리가 더 길고, 왜도 및 첨도는 불안정하지만 ( Sic , 존재하지 않음) 평균과 분산이 정의됩니다. 즉, 안정적입니다.

다음 편집 : Theil 회귀 분석을 사용할 수 있습니다. 어쨌든 테일은 꼬리 모양에 관계없이 잘 작동하기 때문에 생각입니다. MLR (중간 기울기를 사용하는 다중 선형 회귀)을 수행 할 수 있습니다. 히스토그램 데이터 피팅을 위해 Theil을 한 적이 없습니다. 그러나 신뢰 구간을 설정하기 위해 Thel을 jackknife 변형으로 수행했습니다. Theil의 장점은 분포 형태가 무엇인지 신경 쓰지 않고, 문제가 독립적 인 축 분산에 문제가있을 때 일반적으로 OLS가 사용되기 때문에 대답은 일반적으로 OLS보다 편향이 적다는 것입니다. Theil은 완전히 unbaised되지 않습니다, 그것은 중앙 경사입니다. 답은 다른 의미를 지니고 있으며, OLS가 종속 변수의 최소 오류 예측자를 찾는 종속 변수와 독립 변수 사이의 더 나은 일치를 찾습니다.


2
좋은 정보, 고마워 더 자세히 읽을 수있는 (아주 컴팩트 한) 리소스를 알고 있습니까? 긴 꼬리와는 완전히 다른 문제가 있지만 데이터가 다른 시나리오의 혼합 분포라고 생각합니다.
flaschenpost

나는 Mathematica를 사용하고 분포를 조각 단위로 정의하는 것뿐만 아니라 분포를 피팅하는 것은 그 언어에서 어렵지 않습니다. 예를 들어 this를보십시오 . 일반적으로 랜덤 변수는 컨벌루션에 의해 추가되지만 실제로 밀도 함수 컨벌루션은 어려워집니다. 일부 사람들은 지진 주파수를 모델링하기 위해 최대 값을 얻은 후 검열 된 무거운 감마 분포에 가벼운 지수 꼬리를 추가하는 등 혼합 변수에 대한 밀도 함수를 부분적으로 정의합니다. @flaschenpost
Carl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.