주성분 분석을 비정규 데이터에 사용할 수 있습니까?


10

나는 기계 학습을위한 기계 학습 책에 주어진 예를 읽고 있습니다. 먼저 예를 자세히 설명한 다음 내 질문에 대해 이야기하겠습니다.

:

25 년간의 주가 10 년 동안 데이터 세트를 가져옵니다. 25 주가로 PCA를 운영합니다. 주성분을 다우 존스 지수와 비교합니다. PC와 DJI의 유사성이 매우 높습니다!

내가 이해 한 바에 따르면,이 예는 나와 같은 초보자가 PCA 도구의 효과를 이해하는 데 도움이되는 장난감과 비슷합니다!

그러나 다른 소식통 에서 읽을 때 주가는 고정적이지 않으며 PCA를 주가로 운영하는 것은 터무니없는 것입니다. 내가 읽은 출처는 주가에 대한 공분산과 PCA를 계산한다는 아이디어를 완전히 조롱합니다.

질문 :

  1. 예제는 어떻게 잘 작동 했습니까? 주가의 PCA와 DJI는 서로 매우 가깝습니다. 그리고 데이터는 2002-2011 주가의 실제 데이터입니다.

  2. 누군가가 고정 / 비 정적 데이터를 읽는 데 도움이되는 좋은 자료를 알려 줄 수 있습니까? 저는 프로그래머입니다. 좋은 수학 배경이 있습니다. 그러나 나는 3 년간 심각한 수학을하지 않았습니다. 나는 임의의 산책 등과 같은 것들에 대해 다시 읽기 시작했습니다.

답변:


10

이 기사는 원래 질문과 @JonEgil의 답변에 대한 주석으로 제기 된 일부 질문에 부분적으로 답변합니다.

재무 적 (대수) 수익률 *은 대략 (조건부 이분산성이 종종 존재하지만)이지만 가격은 대략 임의의 수익률 입니다. 의 가정 하에서 관찰, 주성분 분석은 직접 (즉, 샘플 주요 구성 요소는 인구의 주요 구성 요소를 추정하는 것) 인구 샘플에서 일반화 것이다, 그러나 이것은 비에서 보유하지 않을 수 있습니다 관찰 - 볼 이 스레드를 . 그렇기 때문에 가격보다는 (로그) 수익에 대해 PCA를 실행하는 것이 합리적입니다.i.i.d.i.i.d.i.i.d.

Ruey S. Tsay는 잔차가 일반적으로 가정되기 때문에 계량 시계열의 계량 모델에서 잔차에 대해 PCA를 실행한다고 주장했습니다. 저는이 아이디어가 "R 및 재무 응용 프로그램을 사용한 다변량 시계열 분석" 에 포함되어 있다고 생각합니다. 교과서 (그는 아이디어를 나에게 직접 설명 했으므로 아이디어가 어디에 있는지 잘 모르겠습니다).i.i.d.

* 가격 로그 리턴 은 . 백분율 반환 대신 편의상 대수 반환이 사용됩니다 . 로그 리턴의 편리한 기능은 기간 동안 전체 로그 리턴을 얻기 위해 개별 로그 리턴을 합산 할 수 있지만 백분율 리턴에는 해당되지 않습니다. 상대적으로 작은 수익률 (금융에서 일반적 임)의 경우 로그의 단위 기울기가 약 1이므로 대략 로그 수익률은 거의 같습니다.Ptr:=log(Pt)log(Pt1)=logPtPt1r:=PtPt1Pt1시간hh


1
+1, 이것은 흥미 롭습니다. 실제로 "반품"이 무엇인지 조금 확장 할 수 있습니까? 경제학에 대한 나의 지식은 제로입니다. 나는 googled하고 시계열에 의해 가격이 주어진다면 , 리턴은 로 정의 된다는 것을 알았습니다 . 그 맞습니까? 그렇다면 왜 대수입니까? 반품이 차이로 정의 된 경우 iid 반품과 랜덤 보행가의 관계에 대한 귀하의 주장을 이해합니다. 그 외에도 DJ는 평균 가격이므로 iid에 대한 귀하의 고려 사항조차도 PC1 수익률이 PC1 가격보다 더 나은 일치 이유를 여전히 이해하지 못합니다. 로그 F ( t I + 1 )f(ti)logf(ti+1)f(ti)
amoeba

1
@amoeba, 나는 빠른 설명을 추가하고 지금 떠나야합니다. 나는 거기에 너무 많은 실수를하지 않았기를 바랍니다. 더 이상의 문제가 있으면 내일 다시 돌아올 것입니다.
Richard Hardy

1
감사. 이제 수익률 (대수 수익률)이 본질적으로 가격 로그의 미분 (첫 번째 차이)임을 알 수 있습니다. 따라서 수익률이 iid이고 로그 가격이 랜덤 워크라고 주장하는 것이 합리적입니다. 그러나 나는 여전히 다우 존스 사례에 놀랐으며 더 많은 설명을 부탁드립니다.
amoeba

6

이러한 유형의 분석을 전문적으로 실행하고 실제로 유용한 지 확인할 수 있습니다. 그러나 가격이 아닌 수익 을 분석해야합니다 . 이것은 또한 Slender Means의 비판에서 강조됩니다.

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

분석에서 일반적인 사용 사례는 시장에서 시스템 위험을 정량화하는 것입니다. 시장에서 더 많은 협력이 이루어질수록 포트폴리오에 실제로 다각화가 줄어 듭니다. 이것은 예를 들어 제 1 주성분에 의해 기술 된 분산 량에 의해 정량화 될 수있다. 첫 번째 고유 값과 동일합니다.

재무 데이터의 경우 일반적으로 시간이 지남에 따라 이동 창을 검사합니다. 더 오래된 관측치의 가중치를 낮추는 어떤 형태의 붕괴 요인이 유용합니다. 일별 데이터의 경우 20-60 일, 주별 데이터의 경우 1-2 년이 소요될 수 있습니다 (모두 필요에 따라 다름).

수만 또는 수십만 개의 자산 가격이 지속적으로 변하는 글로벌 금융 시장의 경우 일반적으로 100K 대 100K 공분산 행렬을 실행할 수 없습니다. 대신 일반적인 유스 케이스는 국가, 부문 또는 기타보다 의미있는 그룹별로 분석을 실행하는 것입니다. 또는 기본 요소 (값, 크기, 품질, 신용 ....)로 수익을 분류하고 이에 대한 PCA / 공분산 분석을 수행하십시오.

효과적인 베팅 수에 대한 Attilio Meucci의 토론은 다음과 같습니다. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

Ledoit 및 Wolf 's Honey 또한 표본 공분산 행렬을 축소했습니다. http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

재무성에 대한 정통성 소개를 위해 Investopedia로 시작하십시오. 엄격하지는 않지만 주요 아이디어를 전달합니다.

행운을 빕니다!

편집 : 다음은 2015 년까지 매일 수익을 낸 Apple, Google 및 Dow Jones를 보여주는 3 주식 예입니다. 위쪽 삼각형은 수익의 상관 관계를 나타내고 아래쪽 삼각형은 가격의 상관 관계를 나타냅니다.

상부 삼각형 수익률 상관 관계, 낮은 삼각형 가격 상관 관계

보다시피, Apple은 수익률 상관 관계 (오른쪽 상단 0.66)보다 Dow (왼쪽 하단 0.76)와 높은 가격 상관 관계를 가지고 있습니다. 우리는 그로부터 무엇을 배울 수 있습니까? 별로. Google은 Apple (-0.28)과 Dow (-0.27) 모두와 음의 가격 상관 관계가 있습니다. 다시, 그로부터 배울 것이 많지 않습니다. 그러나 반환 상관 관계는 Apple과 Google이 Dow와 상당히 높은 상관 관계를 가지고 있음을 나타냅니다 (각각 0.66 및 0.53). 그것은 포트폴리오에서 자산의 공동 이동 (가격 변동)에 대해 알려줍니다. 유용한 정보입니다.

요점은 가격 상관 관계를 쉽게 계산할 수 있지만 흥미롭지는 않다는 것입니다. 왜? 주식의 가격 자체는 흥미롭지 않기 때문입니다. 그러나 가격 변화 는 매우 흥미 롭습니다.


가격과 수익의 차이에 관한 질문의 주요 부분을 더 확장 해 주시겠습니까? 가격을 사용할 때 상관 관계 행렬이 비정규성에 영향을 받는다는 것을 이해합니다. 예를 들어 모든 가격이 선형 적으로 증가하면 모든 상관 관계는 매우 긍정적입니다. 첫째, 왜 나쁜가요? 특히 Dow Jones는 기본적으로 평균 가격이며 PC1과 마찬가지로 가격도 상승 할 것입니다. 둘째, 반품을 사용하면 어떻게 도움이됩니까? AFAIK "반품"은 주변 포인트의 로그 비율입니다. 이것이 왜 의미가 있으며 다우 존스와 어떤 관련이 있습니까?
amoeba

유익한 답변에 감사드립니다. 그러나 그것은 내 질문에 대답하지 않습니다. 책의 데이터 세트에서 가격 분석이 잘 작동하는 이유를 이해하고 싶습니까? 그리고 아메바는 많은 유효한 질문을 제기했습니다.
claudius

1
@claudius : 가격에 대한 PCA가 Dow Jones와 비슷한 것을 제공한다는 사실은 평균 가격입니다. 오히려 PCA 수익률이 왜 더 잘 맞는지 궁금합니다. 아마도 존은 분명히 할 수있을 것입니다.
amoeba

1
해커를 위해 ML에서 실행되는 실제 코드는 살펴 보지 않았지만 누군가가 가격을 분석 할 때마다 실제로 분석 한 100의 99 배가 로그 리턴입니다. 예를 들어, 오늘 다우 지수는 162 포인트 하락한 반면 애플은 0.88 달러 하락했습니다. 숫자가 크게 다를뿐만 아니라, 인덱스 포인트와 돈이 다른 규모입니다. 그러나 pct 용어로 0.91 %와 0.75 %는 비슷하며 작업하려는 숫자입니다. 일부 분석의 경우 평균을 빼서 데이터의 추세를 해제 할 수 있습니다. 단기 금융 시계열에서는 추세가 없다고 가정 할 때 종종 무시됩니다.
Jon Egil

1
@amoeba, To는 (부분적으로) 의견에서 제기 된 질문에 답변하고, 반품은 대략 iid 인 반면 가격은 대략 임의의 도보입니다. 주요 구성 요소는 iid 관찰을 가정하여 훌륭한 특성을 갖습니다. 그렇기 때문에 가격보다는 PCA를 반품하는 것이 합리적입니다. Ruey S. Tsay는 잔차가 일반적으로 iid 인 것으로 가정하기 때문에 계량 적 시계열의 계량 모델에서 잔차에 대해 PCA를 실행한다고 주장했습니다. 왜냐하면 잔차는 일반적으로 iid로 간주되기 때문입니다.
Richard Hardy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.