상관 행렬의 고유 값 분포에 대한 직관 / 해석?


13

상관 행렬의 고유 값 분포에 대한 직관 / 해석은 무엇입니까? 나는 보통 3 개의 가장 큰 고유 값이 가장 중요하고, 0에 가까운 값은 잡음이라는 것을 듣는 경향이 있습니다. 또한, 자연적으로 발생하는 고유 값 분포가 랜덤 상관 행렬 (다시 말해서 신호에서 잡음을 구별)에서 계산 된 것과 고유 값 분포가 어떻게 다른지 조사하는 몇몇 연구 논문을 보았습니다.

통찰력에 대해 자세히 설명하십시오.


특정 응용 프로그램을 염두에 두어야합니다. 즉, 응용 프로그램 (예 : 순수한 수학적 측면)을 제외하고 고려해야 할 EV 수 또는 특정 상황 (예 : 요인 분석, PCA 등)?
chl

나는 수학적 측면, 즉 상관 행렬의 기본이되는 데이터의 속성 인 고유 값에 더 관심이 있습니다. 특정 상황과 관련하여 논의하는 것이 합리적이라면 자유롭게 그렇게하십시오.
Eduardas

답변:


4

나는 보통 3 개의 가장 큰 고유 값이 가장 중요하고, 0에 가까운 값은 잡음이라는 것을 듣는 경향이 있습니다.

당신은 그것을 테스트 할 수 있습니다. 자세한 내용은 게시물에 링크 된 용지를 참조하십시오 . 다시 금융 시계열을 다루는 경우 먼저 렙 토커 티 시티를 수정하고 싶을 수 있습니다 (즉, 원시 수익이 아닌 일련의 조정 된 수익을 고려하십시오).

필자는 자연적으로 발생하는 고유 값 분포가 랜덤 상관 매트릭스 (계산 된 노이즈를 신호와 구별)에서 계산 된 것과 어떻게 다른지 조사한 연구 논문을 보았습니다.

Edward :> 일반적으로 다른 방법으로 arround를 수행합니다. 원하는 응용 프로그램에서 나오는 고유 값 (상관 행렬)의 다변량 분포를 살펴보십시오. 고유 값 분포에 대한 신뢰할 수있는 후보를 식별 한 후에는 고유 값을 쉽게 생성 할 수 있어야합니다.

고유 값의 다변량 분포를 식별하는 방법에 대한 가장 좋은 절차는 동시에 고려할 자산의 수 (예 : 상관 행렬의 차원)에 따라 다릅니다. ( 는 자산의 수) 이면 깔끔한 트릭 이 있습니다.pp10p

편집 (Shabbychef의 의견)

4 단계 절차 :

  1. 다변량 데이터의 하위 샘플이 있다고 가정합니다 . 각 서브 샘플 에 대해 분산 공분산 행렬 의 추정기가 필요합니다 (클래식 추정 기나 빠른 MCD 와 같은 강력한 대안을 사용할 수 있습니다. matlab, SAS, S, 아르 자형,...). 평소와 같이, 재무 타임 시리즈를 처리하는 경우에는 원시 수익이 아닌 일련의 조정 된 수익을 고려할 수 있습니다.~ C j jj=1,...,JC~jj
  2. 각 서브 샘플 용 , 컴퓨팅 , ... 은 고유 값 의 .~ Λ j = 로그 ( ~ λ j 1 ) 로그 ( ~ λ j p ) ~ C jjΛ~j= log(λ~1j)log(λ~pj)C~j
  3. 계산 상기의 볼록 선체 그 j 번째 엔트리가 매트릭스 (이것도 잘 매트랩 구현되어, R, ...) .J × p ~ Λ jCV(Λ~)J×pΛ~j
  4. 내부에서 무작위 포인트 그리기 (이는 가중함으로써 수행 가장자리의 각 (여기서 는 단위 지수 분포에서 입니다 (자세한 내용은 여기 참조 )).w i C V ( ~ Λ ) w i = γ iCV(Λ~)wiCV(Λ~) γiwi=γii=1pγiγi

한계는 치수 수가 10보다 클 때 일련의 점의 볼록 껍질의 빠른 계산이 매우 느려진다는 것입니다.J2


1
궁금합니다 : 트릭은 무엇입니까?
shabbychef

당신은 의미합니까 고유 벡터 의 3를? 하지 ? C~
shabbychef

아니. 은 스칼라입니다. λ1
user603

이것은 매우 이상한 절차입니다. 어딘가에 출판 되었습니까?
shabbychef

@Shabbychev :> 아니,하지만 난 얼마 전에 (이 하나의 같은 문제를 (그냥 한 번에 시리즈 포함) 관련 문제에 일할 수있는 기회가 있었다 stats.stackexchange.com/questions/2572/... )
user603

11

고유 값은 데이터 확산의 주요 구성 요소의 규모를 제공합니다.



(3001)π/4


2

k

일반적으로 첫 번째 고유 포트폴리오는 모든 이름에서 거의 동일 가중치를가집니다. 즉, 동일한 달러 가중치를 가진 모든 자산으로 구성된 '시장'포트폴리오입니다. 두 번째 고유 포트폴리오는 어떤 기간을 살펴 보느냐에 따라 의미 론적 의미를 가질 수 있습니다. 예를 들어 주로 에너지 주식 또는 은행 재고 등. 이것은 일부 우주 선택과 고려 된 기간에 따라 다릅니다. 이것은 일반적으로 5 번째 고유 값이 Marchenko-Pastur 분포에 의해 부과 된 한계를 크게 벗어나지 않기 때문에 괜찮습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.