시계열 데이터에 PCA를 적용 할 수 있습니까?


22

PCA (Principal Component Analysis)는 기본적으로 단면 데이터에 적용 할 수 있음을 이해합니다. 연도를 시계열 변수로 지정하고 PCA를 정상적으로 실행하여 PCA를 시계열 데이터에 효과적으로 사용할 수 있습니까? 동적 PCA가 패널 데이터에 대해 작동하고 Stata의 코딩이 시계열이 아닌 패널 데이터에 맞게 설계된다는 것을 알았습니다. 시계열 데이터에서 작동하는 특정 유형의 PCA가 있습니까?

최신 정보. 자세히 설명하겠습니다.

현재 도로 길이, 철도 노선 길이, 발전 용량, 전화 가입자 수 등의 변수를 사용하여 인도의 인프라에 대한 색인을 작성하고 있습니다. 22 개국에서 12 년간 1 개 국가에 12 개의 변수가 있습니다. 시계열 및 패널 데이터에 PCA를 적용하는 논문을 검토했지만 PCA는 iid 가정을 가정하는 단면 데이터를 위해 설계되었습니다. 패널 및 단면 데이터가이를 위반하면 PCA는 시계열 차원을 고려하지 않습니다. 동적 PCA가 패널 데이터에만 적용되는 것을 보았습니다. 시계열에 적용되거나 시계열 변수로 정의 된 연도를 사용하여 정적 PCA를 실행하는 특정 PCA가 있는지 알고 싶습니다.


2
SSA (Singular Spectrum Analysis)는 종종 시계열의 PCA라고합니다. en.wikipedia.org/wiki/Singular_spectrum_analysis
Vladislavs Dovgalecs 2016 년

1
사이드 바에서 오른쪽 (->)에있는 PCA 및 시계열을 참조하는 일부 게시물을 검토하십시오. 질문에 대한 답변이 있으면 여기에 의견으로 연결하십시오. 그렇지 않은 경우 문제가 다른 방법과 다른 방법을 설명 할 수 있습니다.
Glen_b-복지 주 모니카

그들 중 누구도 시계열에 대한 pca의 질문에 대답하지 않습니다. 주제와 관련된 특정 질문은 과학과 관련이 있거나 대답하지 않은 채로 있습니다.
Nisha Simon

5
데이터 변환, 차원 축소, 탐색 및 시각화 도구 인 PCA 는 가정하지 않습니다. 시계열 데이터를 포함한 모든 데이터에서 실행할 수 있습니다. 실제로 PCA는 시계열 데이터에 적용되는 경우가 많습니다 (때로는 "기능적 PCA"라고도 함). "동적 PCA"와 "정적 PCA"가 무엇을 의미하는지조차 모르겠습니다. 표준 PCA를 걱정하고 사용하지 마십시오.
amoeba는 Reinstate Monica

특히 시계열을 위해 설계된 기능적 PCA 사용을 고려할 수 있습니다. R의 FDA 패키지는 fPCA를 구현했습니다. 다변량 fPCA를 찾을 수 있습니다.
Anne

답변:


8

한 가지 방법은 12 가지 변수의 처음 차이를 파악하여 정상 성을 보장하는 것입니다. 그런 다음 공분산 행렬을 계산하고 PCA를 수행하십시오. 이것은 전체 기간 동안 일종의 평균 PCA가 될 것이며, 서로 다른 타임 래그가 서로 어떻게 영향을 미치는지에 대해서는 아무 말도하지 않습니다. 그러나 좋은 출발점이 될 수 있습니다.12×12

시간 영역을 분해하는 데 관심이 있다면 의견에서 제안한대로 SSA 를 확인하십시오 .

계열이 고정되어 있다고 가정하면 단일 공분산 행렬이 의미가 있습니다. 데이터가 1 ​​이상의 차수로 통합 된 경우 단일 공분산 행렬을 추정해도 일관된 결과가 나오지 않습니다. 랜덤 워크는 예를 들어 차수 1의 적분이며, 2 개의 랜덤 워크의 추정 된 공분산은 그들의 공동 움직임에 대해 아무 말도하지 않습니다. 여기에서 공적분 분석이 필요합니다.

의견에서 제안한 것처럼 PCA 자체는 정상 성을 신경 쓰지 않기 때문에 PCA에 양의 반 정렬 행렬을 공급할 수 있으며 PC 분해는 PCA 감지에 좋습니다.

그러나 추정 된 공분산 행렬이 데이터에 대해 의미있는 것을 나타내지 않으면 PCA도 물론 아닙니다.


1
+1. "처음 차이"란 무엇을 의미합니까?
amoeba는 Reinstate Monica

첫 번째 차이점을 의미하므로 12 개의 x 각각에 대해 x_t-x_t-1을 수행합니다.
Duffau

따라서 시계열 자체가 아니라 각 시계열의 시간 도함수에 대해 PCA를 수행하는 것이 좋습니다. 그 흥미 롭군요; 이것이 왜 첫 번째 제안입니까?
amoeba는 Reinstate Monica

두 가지 이유로 : 1) 공분산 추정이 일관되게하기 위해, 일반적인 횡단면 가정은 두 랜덤 변수가 독립적이고 동일하게 분포 된 것입니다 (iid). 이를 통해 표본 평균이 소위 법칙 (LLN)의 예상 값으로 수렴됩니다. 시계열 분석에서 iid 인 두 가지 확률 적 프로세스의 가정은 제한적입니다. 따라서 그것은 많은 다른 종류의 문구 성의 개념으로 대체됩니다. LLN이 유지되고 공분산 추정이 일관되게하려면 두 계열이 공동으로 고정 된 분포를 가져야합니다.
Duffau

각각의 확률 론적 과정이 계단식이라면, 그것들이 공동으로 정지 해 있다는 점에서 공분산 추정이 합리적입니다. 첫 번째 차이점은 시계열을 "정지 된"것으로 만드는 계량 경제학의 표준 기술입니다. 그리고 여기에서 추정과 PCA는 간단합니다. 간단히 말해서, 그것은 쉬우므로 :-) .... 좋아 두번째 이유는 없었습니다 ..
Duffau

2

예, 시계열에 대한 PCA는 금융 공학 (정량 재무) 및 신경학에서 항상 수행됩니다.

Xt×ptprt=log(Pt)log(Pt1)=log(Pt/Pt1)p×pXt×t일반적인 아이디어는 일이 중복 될 수 있고 신경망과 같은 데이터를 공급할 때 원하지 않기 때문에 단일 PC로 서로 연관되는 일을 축소하기 위해 일 단위의 자산으로 행에 대한 공분산 행렬 신경망은 상관 관계를 학습하는 데 시간을 낭비하므로 데이터 행이 중복되거나 상관 관계가있는 기능 (직교가되기를 원함). 그러나이 방법은 자기 상관에 초점을 두지 않습니다.

γ=t/nXλ+Y=FnβX^=YY^Y=f1β

신경학에서 PCA는 EEG에서 얻은 다른 파장 대역의 활동 전위에 대해 시계열로 실행됩니다. 행동 전위를 직교 (비 관련) PC 점수 벡터로 변환하고 PC를 다른 분석에 입력하는 것은 행동 유전학에 대한 복잡한 형질의 통계적 유전자 모델링에서 통계적 힘이 증가한 주요 수단입니다 (예 : 양극성, 참신성에 대한 표현형 이후) 추구, 정신 분열증, 정신 분열증은 종종 겹칩니다). 호주의 대규모 유전 쌍둥이 연구는 행동 유전학에서 이러한 겹치는 특성을 분석하는 데 도움이되었습니다. 동시에 양육 된 동일한 쌍둥이간에 질병 차이가있는 경우 (동일한 가정에서 자란), 인과 적 추론이 다른 환경에서 노출 될 수 있기 때문에 그들은 동일한 유전학 대신에 나이가 들었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.