크기가 다른 두 변수 간의 상관


9

내가 일하고있는 문제에서 X와 Y라는 두 개의 임의 변수가 있습니다. 두 변수가 얼마나 밀접하게 상호 연관되어 있는지 알아 내야하지만 치수가 다릅니다. X의 행 공간의 순위는 4350이고, Y의 행 공간의 순위는 수만에서 실질적으로 더 크다. X와 Y는 모두 같은 수의 열을 갖습니다.

두 변수 사이의 상관 관계 측정이 필요하고 Pearson의 r은 X와 Y의 치수가 동일해야합니다 (적어도 R은 두 rv가 필요합니다).

이 둘 사이에 상관 관계가 있습니까? Y로부터 관측 값을 정리하는 방법을 찾아야합니까?

 EDIT

의견에 정보를 추가하는 것

나는 이것을 언급하는 것을 잊었다 고 생각합니다. X와 Y는 주가입니다. 회사 X는 Y보다 훨씬 짧은 기간 동안 공개되었습니다. 저는 X와 Y의 가격이 어떻게 연관되어 있는지 말하고 싶었습니다. X와 Y가 모두 존재하는 기간 동안 분명히 상관 관계를 얻을 수 있습니다. 나는 X가 존재하지 않았다는 Y 년의 몇 년의 추가 주가를 알면 추가 정보를 얻을 수 있는지 알고 싶었습니다.


2
이것은 X와 Y 구현을 모두 관찰하는 관찰 (또는 "케이스")이있는 것처럼 들리지 않습니다. 어떤 X가 어떤 Y와 연결되어 있는지 어떻게 알 수 있습니까?
Stephan Kolassa

1
나는 이것을 언급하는 것을 잊었다 고 생각합니다. X와 Y는 주가입니다. 회사 X는 Y보다 훨씬 짧은 기간 동안 공개되었습니다. 저는 X와 Y의 가격이 어떻게 연관되어 있는지 말하고 싶었습니다. X와 Y가 모두 존재하는 기간 동안 분명히 상관 관계를 얻을 수 있습니다. 나는 X가 존재하지 않았다는 Y 년의 몇 년의 추가 주가를 알면 추가 정보를 얻을 수 있는지 알고 싶었습니다.
Christopher Aden

2
@Christopher 위의 의견을 반영하여 질문을 업데이트하는 것이 좋습니다. 또한 상관 관계가 의미가 있으려면 동일한 차원 이상이 필요합니다. 실제 측정 값은 동일한 경우에서 가져와야하며,이 경우에는 아마도 동일한 시점입니다.
Jeromy Anglim

2
나는 질문을 업데이트하는 것에 대한
Jeromy

또 다른 질문 : X와 Y에 같은 수의 열이 있다고 언급했습니다. 그게 하나일까요? 아니면 X와 Y 모두에 대해 여러 시리즈가 있습니까? (다른 증권 거래소 또는 다른 가격)
Stephan Kolassa

답변:


10

대치, 시계열 분석, GARCH 모델, 보간, 외삽 또는 기타 멋진 알고리즘은 존재하지 않는 곳에서 정보를 생성하기 위해 어떤 작업도 수행하지 않습니다 (그 착각을 만들 수는 있지만 ;-). X가 공개되기 전 Y의 가격 이력은 후속 상관 관계를 평가하는 데 쓸모가 없습니다.

때때로 (종종 IPO 준비) 분석가는 내부 회계 정보 (또는 개인 주식 거래 기록)를 사용하여 공개되기 전에 X 주식의 가상 가격을 소급해서 재구성합니다. 이러한 정보는 상관 관계의 추정치를 향상시키는 데 사용될 수 있지만, 그러한 백 캐스트의 극단적 인 잠정적 인 특성을 고려할 때, X에 대한 가격이 며칠 또는 몇 주 밖에없는 경우를 제외하고는 그 노력이 도움이되지 않을 것입니다.


설명 : 누락 된 데이터 문제 (물론 이해가되지 않음)를 다루기 위해 GARCH에 대해 언급하지는 않았지만 둘 다 존재하는 시간에 시계열 간의 간단한 상관 관계 계산을 개선하기 위해 언급했습니다.
Stephan Kolassa

@Stephan : 알겠습니다. 나는 당신을 무시하고 있지 않다는 것을 보여주기 위해 주로 언급했습니다!
whuber

1
whuber 감사합니다. 이것은 내가 찾던 것과 일치합니다. 나는 백 캐스팅이 X와 Y 사이의 상호 시간 프레임이 이미 약 16 년일 때 X의 몇 주를 더 추가하는 데 크게 유용하지 않다고 생각합니다.
Christopher Aden

2
@ 크리스토퍼 : !! 16 년 (매일 휴관일)? 상관 관계를 찾을뿐만 아니라 시간이 지남에 따라 어떻게 변화했는지 살펴볼 수있는 충분한 데이터가 있습니다. (이것은 @Stephan Kolassa의 답변의 정신이라고 생각합니다.)
whuber

동의한다. IPO 이전에 X가 가져간 값을 알아내는 기술을 사용하면 오류가 발생하기 쉽습니다. 또한 현대 트렌드를 예측하기 위해 16 세인 데이터의 관련성에 의문을 가질 수도 있습니다.
Christopher Aden

10

따라서 문제는 누락 된 데이터 중 하나입니다 (모든 Y에 해당 X가있는 것은 아니며, 해당 시점을 통해 통신이 작동 됨). 나는 X가없는 Y를 버리고 전체 쌍의 상관 관계를 계산하는 것보다 여기에 할 일이 많지 않다고 생각합니다.

이 시점에서 좋은 참고 자료는 없지만 재정 시계 시리즈를 읽을 수도 있습니다 (아이디어, 누구?). 주가는 종종 시변 변동성을 나타내며, 이는 예를 들어 GARCH 에 의해 모델링 될 수 있습니다 . 두 시계열 X와 Y는 변동성이 낮은 기간 (경제가 성장할 때 모든 주가가 상승하는 경향이있는 기간) 동안 양의 상관 관계를 나타내지 만 전체 변동성이 높을 때 (9/11 일, 유조선 항공사는 음의 상관 관계) 돈은 더 안전한 투자로 도망 쳤다). 따라서 전체 상관 관계를 계산하는 것은 관측 시간 프레임에 너무 의존적 일 수 있습니다.

업데이트 : VAR (벡터 자동 회귀) 모델 을보고 싶을 수도 있습니다 .


기본 재무 시계열 참조에 대해서는 stats.stackexchange.com/questions/328/…에서 내 답변을 볼 수 있습니다 . Tsay 텍스트는 가장 인기있는 텍스트 중 하나입니다.
Shane

2

@Jeromy Anglim이 이것을 올바르게 지정했습니다. 시계열 중 하나만 존재할 때 추가 정보가 있으면 여기서 가치가 없습니다. 원칙적으로, 기존의 상관 관계 측정을 사용하여 데이터가 의미가 있으려면 데이터를 동시에 샘플링해야합니다.

보다 일반적인 문제로, 불규칙한 간격의 시계열 데이터를 처리하는 기술이 있다고 덧붙였습니다. "불규칙 간격의 시계열 상관 관계"를 검색 할 수 있습니다. 최근 연구 중 일부는 고주파 데이터를 사용하여 " 실제 변동성 및 상관 관계" (Andersen, Bollerslev, Diebold 및 Labys 1999) 에 대해 수행되었습니다 .


1

귀하의 의견에 추가 정보가 주어지면 두 가지 상관 관계를 살펴 보는 것이 좋습니다. 첫 번째는 회사가 있었던 일반적인 기간입니다. 따라서 2 년 전쯤 되었다면 해당 데이터를 삭제하고 나머지를 살펴보면됩니다. 두 번째는 상대 시간입니다. 두 번째는 실제 시간을 상관시키지 않고 회사가 공개 된 이후 측정 한 시간입니다.

전자는 같은 기간 내에 공유되는 일반 경제 세력의 영향을 크게받습니다. 후자는 기업이 IPO 이후에 변화함에 따라 회사가 공유하는 자산의 영향을받습니다.


0

이러한 문제를 해결하는 다른 방법은 특정 상황에서 의미가 있거나 그렇지 않을 수있는 시계열 모델을 사용하여 더 짧은 시리즈에 대해 누락 된 데이터를 대치하는 것입니다.

당신의 맥락에서, 주가를 과거에 전가한다는 것은 다음과 같은 반의 문적 질문을하고 있다는 것을 의미합니다 : X 회사의 주식 가격은 실제로 공개 된 시점이 아니라 과거 n 년 동안 공개 된 적이 있습니까? 이러한 데이터 전가는 관련 회사의 주가, 일반적인 시장 동향 등을 고려하여 수행 할 수 있습니다. 그러나 이러한 분석은 프로젝트의 목표에 따라 의미가 없거나 필요하지 않을 수 있습니다.


0

당신의 가정에 따라 달라집니다. 데이터가 고정적이라고 가정하면 시리즈 1에 대한 더 많은 데이터는 변동성에 대한 더 나은 추정치를 제공합니다. 이 추정치는 상관 추정을 향상시키는 데 사용될 수 있습니다. 따라서 다음의 진술은 정확하지 않습니다.

"X가 공개되기 전의 Y 가격 내역은 후속 상관 관계를 평가하는 데 쓸모가 없습니다."


나는 이것에 대해 생각했다. 이론적으로는 효과가있을 수 있지만 매우 견고하지 않으므로 피하는 것이 좋습니다.
kjetil b halvorsen

-1

이것은 기계 학습 알고리즘의 문제처럼 들립니다. 따라서 트렌드의 특정 측면을 설명하는 기능 세트를 파악하고 그에 대해 학습하려고합니다. 전체 머신 러닝 이론은이 답변 상자에 약간 복잡하지만, 읽는 것이 유용 할 것입니다.

그러나 솔직히, 나는 이미 존재한다고 생각합니다. 돈을 벌 수있는 곳에서 사람들은 마음 속으로 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.