FPCA (Functional Principal Component Analysis) : 모든 것이 무엇입니까?


21

FPCA (Functional Principal Component Analysis)는 내가 우연히 발견했지만 이해하지 못한 것입니다. 무엇에 관한 것입니까?

2011 년 Shang의 "기능적 주요 구성 요소 분석 조사"를 참조하십시오 .

PCA는“차원의 저주”(Bellman 1961)로 인해 기능 데이터를 분석하는 데 심각한 어려움을 겪습니다. "차원의 저주"는 고차원 공간의 데이터 희소성에서 비롯됩니다. PCA의 기하학적 특성이 유효하고 수치 기법이 안정적인 결과를 제공하더라도 샘플 공분산 행렬은 때때로 모집단 공분산 행렬의 열악한 추정치입니다. 이 어려움을 극복하기 위해 FPCA는 PCA보다 샘플 공분산 구조를 검사하는 훨씬 더 유익한 방법을 제공합니다 ...]

나는 그것을 얻지 못한다. 이 백서에서 설명하는 단점은 무엇입니까? PCA가“차원의 저주”와 같은 상황을 처리하는 최고의 방법이 아니어야합니까?

답변:


7

정확하게, 당신이 질문에 언급하고 @tdc가 그의 대답에 넣을 때, PCA의 기하학적 특성이 유효하게 유지 되어도 매우 높은 차원의 경우 공분산 행렬은 더 이상 실제 모집단 공분산의 좋은 추정치가 아닙니다.


기능성 PCA를 사용하여 분산을 시각화 하는 매우 흥미로운 논문 "fMRI 데이터의 기능적 주성분 분석" ( pdf )이 있습니다.

... 다른 탐구 기법과 마찬가지로, 목표는 적절한 모델을 선택하기 전에 데이터에 "자신을 대변 할 수있는"기회를 제공하는 초기 평가를 제공하는 것입니다. [...]

이 논문에서 그들은 그들이 정확히 어떻게했는지 설명하고 이론적 추론을 제공합니다.

이 접근법의 결정적인 장점은 기본 함수 세트의 선택과 적합에 의해 최소화 된 오류 함수에서 일련의 가정을 지정할 수 있다는 것입니다. 이러한 가정은 F- 마스킹에서와 같이 사전 정의 된 혈역학 적 기능과 일련의 사건 또는 조건의 지정보다 약하므로 절차의 탐색 적 특성을 보존합니다. 그러나 가정은 일반 PCA의 어려움을 극복하기에 충분히 엄격 할 수 있습니다.


FPCA의 논리를 이해하기 위해 고심하고 있습니다. 나는 당신이 인용 한 논문을 보았지만 여전히 혼란스러워합니다. 설정은 데이터 행렬이 크기이고 이 길이 시계열을 관측 한 것 입니다. PCA를 사용 하면 공분산 행렬 의 첫 길이 고유 벡터를 찾을 수 있습니다 . 주장은 그것이 매우 시끄러울 것이라는 것입니다. FPCA 솔루션은 기본 함수 ( )로 각 시계열을 근사한 다음 기본 함수 공간에서 PCA를 수행하는 것입니다. 옳은? 그렇다면 각 시계열을 다듬고 표준 PCA를 실행하는 것과 어떻게 다릅니 까? 왜 특별한 이름입니까? n×tntntkk
amoeba는 Reinstate Monica가

그것에 대해 조금 더 읽은 후에 나는 내 자신의 답변을 게시하기로 결정했습니다. 아마도 당신은 관심이있을 것입니다. 추가 통찰력에 감사드립니다.
amoeba는 Reinstate Monica가

24

"기능적 PCA"는 불필요하게 혼란스러운 개념입니다. 전혀 별개의 것이 아니며 시계열에 적용되는 표준 PCA입니다.

×201000

여기에 표준 PCA를 적용 할 수 있습니다. 분명히, 당신의 인용에서 저자는 결과 고유 시간 시리즈가 너무 시끄러울 것이라고 우려하고 있습니다. 이것은 실제로 일어날 수 있습니다! 이를 처리하는 두 가지 확실한 방법은 (a) PCA 후 고유 시계열을 평활화하거나 (b) PCA를 수행하기 전에 원래 시계열을 평활화하는 것입니다.

케이케이

FPCA에 대한 자습서는 일반적으로 PCA를 무한 차원의 기능 공간으로 일반화하는 방법에 대한 긴 토론으로 진행되지만 실제로 기능 데이터는 항상 시작하기 위해 이산화되어 있기 때문에 실제로는 그 이상 입니다.

다음은 Ramsay와 Silverman "기능 데이터 분석"교재에서 발췌 한 그림입니다 . FPCA를 포함한 "기능 데이터 분석"에 대한 결정적인 논문으로 보입니다 .

Ramsay and Silverman, FPCA

"분산 된 데이터"(포인트)에 대해 PCA를 수행하면 푸리에 기준으로 해당 기능에 대해 FPCA를 수행하는 것과 실질적으로 동일한 결과를 얻을 수 있습니다. 물론 개별 PCA를 먼저 수행 한 다음 동일한 푸리에 기준으로 기능을 맞출 수 있습니다. 거의 같은 결과를 얻을 수 있습니다.

=12>


2
드물게 불규칙하게 샘플링 된 궤적 (예를 들어, 세로 데이터)의 경우, FPCA는 " 고유 한 시계열을 보간하고 평활화 "하는 것보다 훨씬 더 복잡 합니다. 예를 들어, 희소 데이터의 투영 점수를 계산하는 일부 고유 성분을 얻는 방법이 잘 정의되어 있지 않습니다. 예를 들어 : Yao et al. JASA 2005. 고밀도로 정기적으로 샘플링 된 프로세스에 부여 FPCA는 사실상 약간의 부드러움이있는 PCA입니다.
usεr11852는

감사합니다, @ usεr11852 (+1). 다시 조사 할 시간을 찾아야합니다. 나는 당신이 참조 한 논문을 찾아 보고이 답변으로 돌아갈 것입니다.
amoeba는

@amoeba,이 모든 것들은 이산 푸리에 변환과 거의 관련이 있습니다. 여기서 복잡한 파동 / 시간 계열의 성분 파동을 회복합니까?
러셀 리치

9

나는 FDA에서 Jim Ramsay와 몇 년 동안 일 했으므로 @amoeba의 답변에 몇 가지 설명을 추가 할 수 있습니다. @amoeba는 기본적으로 옳습니다. 적어도 이것이 FDA를 공부 한 후에 마침내 도달 한 결론입니다. 그러나 FDA 프레임 워크는 왜 고유 벡터를 평활화하는 것이 단순한 문제가 아닌지에 대한 흥미로운 이론적 통찰력을 제공합니다. 평활도 패널티가 포함 된 내부 제품에 따라 기능 공간에서의 최적화는 기본 스플라인의 유한 치수 솔루션을 제공합니다. FDA는 무한 차원 함수 공간을 사용하지만 분석에는 무한한 차원이 필요하지 않습니다. 그것은 가우시안 프로세스 나 SVM의 커널 트릭과 같습니다. 실제로 커널 트릭과 매우 비슷합니다.

Ramsay의 원래 작업은 데이터의 주요 스토리가 분명한 상황을 처리했습니다. 기능이 다소 선형 적이거나 다소 주기적입니다. 표준 PCA의 주요 고유 벡터는 기본적으로 우리가 이미 알고있는 것을 알려주는 함수의 전체 수준과 선형 추세 (또는 사인 함수)를 반영합니다. 흥미로운 특징은 잔차에 있으며, 이제 목록 상단에서 몇 개의 고유 벡터가 있습니다. 그리고 각각의 후속 고유 벡터는 이전의 고유 벡터와 직교해야하므로, 이러한 구조는 분석의 아티팩트에 의존하고 데이터의 관련 특징에 덜 의존합니다. 요인 분석에서 경사 요인 회전은이 문제를 해결하는 것을 목표로합니다. 램지의 아이디어는 구성 요소를 회전시키지 않는 것이 었습니다. 오히려 분석의 요구를 더 잘 반영 할 수있는 방식으로 직교성의 정의를 바꾸는 것. 이는 주기적 구성 요소에 관심이 있다면2

OLS로 추세를 제거하고 해당 작업의 잔차를 조사하는 것이 더 간단하다고 반대 할 수도 있습니다. FDA의 부가가치가이 방법의 엄청난 복잡성에 가치가 있다고 확신하지 못했습니다. 그러나 이론적 인 관점에서, 관련된 문제를 고려해 볼 가치가 있습니다. 데이터에 대한 우리의 모든 일은 일을 망칩니다. OLS의 잔차는 원본 데이터가 독립적 인 경우에도 상관됩니다. 시계열을 평활화하면 원시 계열에 없었던 자기 상관이 발생합니다. FDA의 아이디어는 초기 디트 렌딩에서 얻은 잔차가 관심 분석에 적합하도록하는 것입니다.

FDA는 스플라인 기능이 활발히 연구되고있는 80 년대 초반에 유래했음을 기억해야합니다. Grace Wahba와 그녀의 팀을 생각해보십시오. 그 이후로 SEM, 성장 곡선 분석, 가우스 프로세스, 확률 적 프로세스 이론의 추가 개발 등과 같은 다변량 데이터에 대한 많은 접근 방식이 등장했습니다. FDA가 해결해야 할 질문에 대한 최선의 접근 방식으로 남아 있는지 확실하지 않습니다. 다른 한편으로, FDA의 취지에 대한 응용을 볼 때 저자가 FDA가 무엇을하려고하는지 실제로 이해하는지 궁금합니다.


+1. 죄송합니다. 지금 귀하의 답변을 우연히 발견했습니다. 우연히 만 (다른 사람이 내 답변 아래에 의견을 남기고 아래로 스크롤했습니다). 기여해 주셔서 감사합니다! 나는 이것에 대해 조금 더 읽을 시간을 찾고 커널 트릭과의 유사성에 대해 말한 것에 대해 생각할 필요가 있다고 생각합니다. 합리적으로 들립니다.
amoeba는

5

FPCA에 대해서는 잘 모르겠지만 기억해야 할 것은 매우 높은 차원에서 훨씬 더 많은 "공간"이 있고 공간 내의 점들이 균일하게 분포 된 것처럼 보이기 시작한다는 것입니다. 이 시점에서 공분산 행렬은 본질적으로 균일하게 보이기 시작하고 노이즈에 매우 민감합니다. 따라서 "참"공분산의 나쁜 추정치가됩니다. 아마도 FPCA는 어떻게 든이 문제를 해결할 수 있지만 확실하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.