상관 관계는 데이터의 정상 성을 가정합니까?


27

시장 간 분석은 서로 다른 시장 간의 관계를 찾아 시장 행동을 모델링하는 방법입니다. 종종 S & P 500과 30 년 미국 국채 등 두 시장 사이의 상관 관계가 계산됩니다. 이러한 계산은 가격 데이터를 기반으로하지 않는 경우가 많으며, 이는 고정 시계열의 정의에 맞지 않음을 모든 사람에게 분명합니다.

가능한 해결책은 제쳐두고 (대신에 리턴을 사용), 유효한 통계 계산조차도 데이터가 고정적이지 않은 상관 관계의 계산입니까?

이러한 상관 관계 계산이 다소 신뢰할 수 없거나 단순한 말도 안된다고 말할 수 있습니까?


1
"유효한 통계 계산"의 의미는 무엇인가에 대한 유효한 통계 (추정) 계산을 말해야합니다. 여기서 뭔가가 매우 중요합니다. 상관 관계는 두 데이터 집합 간의 선형 관계에 대한 유효한 계산입니다. 왜 고 정성이 필요한지 모르겠습니다. 자동 상관을 의미합니까?
로빈 지라

2
귀하의 질문에 더 적합한 새로운 사이트가 있습니다 : quant.stackexchange.com . 이제 계산과 해석이 혼동됩니다.
mpiktas

@mpiktas, quant 커뮤니티는 수익의 정상 성과 가격의 비정규 성으로 인해 수익 대 가격을 사용하여 정산됩니다. 나는 이것이 왜 그렇게되어야하는지에 대한 직관적 인 설명 이상의 것을 요구하고 있습니다.
Milktrader

@ robin, 통계 분석에 의문을 가질 수있는 몇 가지가 있습니다. 조작 된 데이터와 같은보다 명백한 것들과 마찬가지로 샘플 크기가 떠 오릅니다. 데이터의 비정상 성이 상관 관계 계산에 의문을 제기합니까?
Milktrader

상관 관계가 높지 않으면 계산이 아닌 해석 일 수 있습니다. 이 높으면 높은 상관 관계 (즉, 높은 선형 관계)이 아닌 두 stationnary 시계열 말 수단 및 예를 들면, 잠재적으로 매우 연관 될 수 (시 .(Xt)(Yt)Xt=Yt
로빈 지라

답변:


37

상관 관계는 선형 관계를 측정합니다. 비공식적 인 맥락에서 관계는 안정적인 것을 의미합니다. 고정 변수에 대한 샘플 상관 관계를 계산하고 사용 가능한 데이터 포인트 수를 늘리면이 샘플 상관 관계는 실제 상관 관계가있는 경향이 있습니다.

일반적으로 랜덤 워크 인 가격의 경우 샘플 상관 관계가 랜덤 변수 인 경향이 있음을 알 수 있습니다. 이것은 우리가 가진 데이터의 양에 관계없이 결과는 항상 다름을 의미합니다.

참고 저는 수학없이 수학 직관을 표현하려고했습니다. 수학적 관점에서 설명은 매우 명확합니다. 고정 프로세스의 샘플 모멘트는 상수에 따라 수렴합니다. 랜덤 워크의 샘플 모멘트는 랜덤 변수 인 브라운 운동의 적분으로 수렴합니다. 관계는 일반적으로 임의의 변수가 아닌 숫자로 표현되므로 고정되지 않은 변수의 상관 관계를 계산하지 않는 이유가 분명해집니다.

업데이트 두 변수 간의 상관 관계에 관심이 있기 때문에 고정 변수 에서 온 것으로 가정 합니다. 문구 및 가 의존하지 않음을 의미합니다 . 상관 관계E Z t c o v ( Z t , Z t - h ) tZt=(Xt,Yt)EZtcov(Zt,Zth)t

corr(Xt,Yt)=cov(Xt,Yt)DXtDYt

공식의 모든 양은 의존하지 않는 행렬 에서 때문에 의존하지 않습니다 . 샘플 상관 관계 계산c o v ( Z t ) ttcov(Zt)t

ρ=CO, R, R(Xt,Y의t)ρρT

ρ^=1Tt=1T(XtX¯)(YtY¯)1T2t=1T(XtX¯)2t=1T(YtY¯)2
는 샘플 상관 관계가 추정 할 것이라는 희망을 가질 수 있기 때문에 의미가 있습니다 . 특정 조건을 만족하는 고정 프로세스의 경우 이므로 확률 은 희망은 근거가 없습니다 . 또한 분포이므로 에 대한 가설을 검정 할 수 있습니다 .ρ=corr(Xt,Yt)ρ^ρTρT(ρ^ρ)N(0,σρ2)ρ

이제 가 고정되어 있지 가정하십시오 . 그러면 는 의존 할 수 있습니다 . 따라서 크기 의 표본을 관찰 할 때 잠재적으로 개의 서로 다른 상관 관계 를 추정해야합니다 . 물론 이것은 불가능하기 때문에 최상의 시나리오 에서는 평균 또는 분산과 같은 의 일부 기능 만 추정 할 수 있습니다 . 그러나 결과는 현명한 해석이 아닐 수 있습니다. c o r r ( X t , Y t ) t T T ρ t ρ tZtcorr(Xt,Yt)tTTρtρt

이제 가장 많이 연구 된 비 정적 프로세스 랜덤 워크의 상관 관계에서 발생하는 상황을 살펴 보겠습니다. 인 경우 프로세스 를 임의의 보행이라고합니다 . 여기서 는 고정 프로세스입니다. 간단히하기 위해 이라고 가정하십시오 . 그때Z t = t s = 1 ( U t , V t ) C t = ( U t , V t ) E C t = 0Zt=(Xt,Yt)Zt=s=1t(Ut,Vt)Ct=(Ut,Vt)ECt=0

corr(XtYt)=EXtYtDXtDYt=Es=1tUts=1tVtDs=1tUtDs=1tVt

문제를 더 단순화하기 위해 가 백색 잡음 이라고 가정하십시오 . 이것은 모든 상관 관계 가 대해 0 임을 의미합니다 . 이것은 를 0으로 제한하지 않습니다 .E ( C t C t + h ) h > 0 c o r r ( U t , V t )Ct=(Ut,Vt)E(CtCt+h)h>0corr(Ut,Vt)

그런 다음

기음영형아르 자형아르 자형(엑스,와이)=이자형V2V=기음영형아르 자형아르 자형(0,V0).

지금까지는 프로세스가 고정적이지 않지만 상관 관계는 의미가 있지만 동일한 제한적 가정을해야했습니다.

이제 샘플 상관 관계가 어떻게되는지 확인하려면 기능 중심 제한 정리라는 랜덤 워크에 대해 다음 사실을 사용해야합니다.

s의[0,1]WS=(W(1 개)(S),W(2 개)(S))MS=(M1s,M2s)=(

1[에스]=1=1[에스]기음(기음영형V(기음0))1/2에스,
분포에서 및 는 이변 량입니다. 브라운 운동 (2 차원 Wiener 공정). 편의 도입 정의를 위해 .에스[0,1]에스=(1에스,2에스)에스=(1에스,2에스)=(기음영형V(기음0))1/2에스

단순화를 위해 다시 샘플 상관 관계를 정의하자

ρ^=1=1엑스와이1=1엑스21=1와이2

분산부터 시작하겠습니다. 우리는

이자형1=1엑스2=1이자형=1(에스=1)2=1=1σ2=σ+12.

이것은 증가함에 따라 무한대로 진행 되므로 첫 번째 문제에 부딪치며 표본 분산이 수렴하지 않습니다. 다른 한편 으로 , 기능적 중심 한계 정리와 함께 연속 매핑 정리는 우리에게

T

12=1엑스2==11(1에스=1)2011에스2에스
여기서 수렴은 분포의 수렴 인 .

마찬가지로 우리는 얻을

1

12=1와이2012에스2에스
12=1엑스와이011에스2에스에스

마지막으로 랜덤 보행의 샘플 상관 관계에 대해

T

ρ^011에스2에스에스011에스2에스012에스2에스
을 로 배포 합니다.

따라서 상관 관계가 잘 정의되어 있지만 고정 프로세스 사례에서와 같이 샘플 상관 관계가 수렴되지 않습니다. 대신 특정 임의 변수로 수렴합니다.


1
수학적 관점 설명은 내가 찾던 것입니다. 그것은 더 깊이 탐구하고 탐구 할 무언가를 제공합니다. 감사.
Milktrader

1
이 응답은 원래의 질문을 회피하는 것처럼 보입니다. 상관 관계 계산이 고정 프로세스에 적합하다고 말하는 것이 아닙니까?
whuber

1
@ whuber, 나는 의견을 염두에두고 질문에 대답하고 있었지만 OP를 사용하여 고정되지 않은 데이터의 상관 관계 계산에 대한 질문을 다시 읽었습니다. 고정 공정에 대한 상관 관계 계산은 모든 거시 경제적 분석 (VAR, VECM)에 의존합니다.
mpiktas

답변을 통해 내 질문을 명확히하려고 노력할 것입니다.
whuber

3
@ whuber 내 대답에서 벗어난 것은 고정되지 않은 데이터를 기반으로 한 상관 관계가 임의의 변수를 생성하여 유용하거나 유용하지 않을 수 있다는 것입니다. 고정 데이터를 기반으로하는 상관 관계는 상수로 수렴됩니다. 이것은 상관 된 행동이 약하고 가짜이기 때문에 상인들이 "x- 일 롤링 상관 관계"에 끌리는 이유를 설명 할 수 있습니다. "x- 일 롤링 상관 관계"가 유효한지 또는 유용한지는 다른 질문에 대한 것입니다.
Milktrader

13

... 데이터가 비정규적인 상관 관계 계산이 유효한 통계 계산일까요?

를 불연속 무작위 보행으로 하자 . 양수 선택하십시오 . 프로세스 정의 및 가 , 의 경우 와 달리 ; 및 . 즉, 동일 아웃 시작 있지만마다 초과하여 상승 는 기호 (달리 에뮬레이트 스위치 모든면에서 참조).h P V P ( 0 ) = 1 P ( t + 1 ) = P ( t ) V ( t ) > h P ( t + 1 ) = P ( t ) V ( t ) = P ( t ) W ( t ) V W V h WhV(0)=1(+1)=()V()>h(+1)=()V()=()()VVh

여기에 이미지 설명을 입력하십시오

(이 그림에서 ( ) 는 파란색이고 는 빨간색입니다. 4 개의 스위치가 있습니다.)W Vh=5V

사실상, 단기간에 걸쳐 는 와 완벽하게 상관 되거나 또는 그것 과 완벽하게 상관되지 않는 경향이있다 . 그러나 와 의 관계를 설명하기 위해 상관 함수를 사용하는 것은 유용 하지 않을 것입니다 ( "신뢰할 수없는"또는 "논 센스"보다 문제를 더 잘 포착하는 단어).W V WVV

그림을 생성하는 Mathematica 코드 :

With[{h=5},
pv[{p_, v_}, w_] := With[{q=If[v > h, -p, p]}, {q, q w}];
w = Accumulate[RandomInteger[{-1,1}, 25 h^2]];
{p,v} = FoldList[pv, {1,0}, w] // Transpose;
ListPlot[{w,v}, Joined->True]]

귀하의 답변이 지적하는 것이 좋지만 프로세스가 상호 관련되어 있다고 말하지는 않으며 의존적이라고 말합니다. 이것이 요점입니다. 상관 관계의 계산은 유효하며 여기서는 "상관 관계 없음"이라고 표시되며 우리는 이것이 "의존 관계 없음"을 의미하지 않는다는 것을 알고 있습니다.
로빈 지라드

1
@robin 좋은 지적이지만이 예제를 구체적으로 구성하여 잠재적으로 오랜 시간 동안이 두 프로세스가 완벽하게 상관되도록했습니다. 이 문제는 의존성 대 상관 관계 중 하나가 아니라 본질적으로 미묘한 현상과 관련이 있습니다. 즉, 프로세스 간의 관계가 임의의 기간에 변경됩니다. 간단히 말해서, 실제 시장에서 일어날 수있는 일입니다 (또는 적어도 일어날 수 있다는 것을 걱정해야합니다!).
whuber

@whubert 그렇습니다. 이는 잠재적으로 오랜 시간 동안 매우 높은 상관 관계가 있지만 더 큰 시간적 규모와 관련하여 여전히 상관 관계가 없지만 (매우 의존적 임) 프로세스를 보여주는 매우 좋은 예입니다.
로빈 지라

2
@ robin girard, 여기서 중요한 점은 비 정적 프로세스의 경우 고정 프로세스의 이론적 상관이 동일하게 유지되는 경우 이론적 상관이 시간에 따라 달라진다는 것입니다. 따라서 기본적으로 하나의 숫자 인 샘플 상관 관계를 사용하면 비 정적 프로세스의 경우 실제 상관 관계의 변화를 포착 할 수 없습니다.
mpiktas
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.