시계열 데이터에서 PCA를 해석하는 방법은 무엇입니까?


19

Freeman et al., 2014 ( 실험실 웹 사이트에서 무료 pdf 사용 가능) 라는 제목의 최근 저널 기사에서 PCA의 사용을 이해하려고합니다 . 시계열 데이터에서 PCA를 사용하고 PCA 가중치를 사용하여 뇌의지도를 만듭니다.

데이터는 시험 평균 영상 데이터로, 복셀 (또는 뇌의 영상 위치 )과 함께 매트릭스 ( 종이 에서는 라고 함 ) 시점 (단일 길이 뇌 자극). N× tY^n×t^

그들은 초래 SVD 사용 ( 행렬의 전치를 나타내는 ).VV

Y^=USV
VV

저자들은

주성분 ( 의 열 )은 길이 벡터 이고, 점수 ( 의 열 )는 길이 (복셀 수)의 벡터이며 , 방향에 대한 각 복셀의 투영을 나타냅니다. 해당 구성 요소에 의해 주어진 볼륨에 돌기, 즉 전체 뇌지도를 형성합니다.t U의 NVt^Un

따라서 PC는 길이가 벡터입니다 . PCA의 튜토리얼에서 일반적으로 표현되는 "첫 번째 주요 컴포넌트가 가장 많은 차이를 설명합니다"를 어떻게 해석 할 수 있습니까? 우리는 많은 상관 관계가 높은 시계열의 행렬로 시작했습니다. 단일 PC 시계열은 원래 행렬의 차이를 어떻게 설명합니까? 나는 "가장 다양한 축으로 가우스 구름이 회전하는 것"을 이해하지만 이것이 시계열과 어떤 관련이 있는지 확실하지 않습니다. 저자는 다음과 같이 말할 때 방향에 따라 무엇을 의미합니까? "점수 ( 의 열 )는 길이 벡터입니다.t^ nUn (각 복셀 수), 해당 구성 요소가 제공 한 방향으로 각 복셀의 투영을 설명합니다. "주요 구성 요소 타임 코스는 어떻게 방향을 가질 수 있습니까?

기본 성분 1과 2의 선형 조합 및 관련 뇌지도에서 결과 시간 계열의 예를 보려면 다음 링크로 이동 하여 XY 플롯의 점을 마우스로 가리 킵니다.

Freman et al.

두 번째 질문 은 주요 구성 요소 점수를 사용하여 생성 한 (상태 공간) 궤적 과 관련 있습니다.

이들은 (I 위에서 약술 한 "optomotor"예의 경우) 제 2 스코어를 고려하여 만들어 식으로 주요 부분 공간 내로 (전술 한 시험 평균 행렬을 생성하는 데 사용) 각 시험을 투영된다

J=UY.

연결된 영화에서 볼 수 있듯이 상태 공간의 각 흔적은 뇌의 활동 전체를 나타냅니다.

처음 2 대의 PC 점수의 XY 플롯을 연결하는 그림과 비교하여 상태 공간 동영상의 각 "프레임"의 의미에 대한 직감을 제공 할 수 있습니까? 실험의 1 회 시도가 XY 상태 공간에서 1 개의 위치에 있고 다른 실험이 다른 위치에 있다는 것은 주어진 "프레임"에서 무엇을 의미합니까? 영화에서 XY 플롯 위치는 내 질문의 첫 번째 부분에서 언급 된 연결된 그림의 주요 구성 요소 추적과 어떻게 관련이 있습니까?

Freeman et al.


1
+1 질문을 편집했습니다. 여기에서 텍스 방정식의 형식을 지정하는 방법을 살펴보십시오. 그 외에도 논문을 잘 알고 있으므로 나중에 답장을 보내겠습니다.
amoeba는 Reinstate Monica가

1
이것은 OP가 원하는 것이 아니지만 시계열 데이터에서 가져온 주요 구성 요소를 항상 해석하는 데 유용 할 수 있습니다. 저는 보통 PCA를 Karhunen-Loève 확장으로 해석하고 싶습니다. 주어진 시계열 (PCA를 적용하는 다른 시계열)를 상관되지 않은 시계열 (즉, 주성분)의 선형 조합으로 표현합니다. 이 경우 각 시계열의 가중치는 공분산 행렬에서 얻은 고유 벡터에 의해 제공됩니다. Xt
Néstor

1
(내 요점에 대한 자세한 설명은 astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf 참조 )
Néstor

1
귀하의 질문에 귀하가 언급 한 스크린 샷을 추가했습니다.
amoeba는 Reinstate Monica가

사진은 어떻게 추가 했습니까?
statHacker

답변:


16

Q1 : PC 시계열과 "최대 편차"는 어떤 관계입니까?

그들이 분석 것을 데이터는 의 각 데이터 포인트 하나로서 그것에 대해 생각할 수 있도록, 신경 에서 데이터 포인트 차원 공간 . "포인트 클라우드"이므로 PCA를 수행하면 잘 아는 것처럼 최대 분산 방향을 찾는 데 도움이됩니다. 나는 이러한 방향 (공분산 행렬의 고유 벡터)을 "주축"이라고 부르고, 이러한 방향으로의 데이터 투영을 "주성분"이라고 부릅니다. N t의 n 개의R의Nt^nt^nRn

시계열을 분석 할 때이 그림에 유일하게 추가되는 점은 단순히 정렬되지 않은 점의 집합 이 아니라 점들이 의미있게 정렬되거나 번호가 매겨지는 것입니다 ( 에서 ) . 즉, 하나의 단일 뉴런 ( 에서 하나의 좌표)의 발사 속도를 취하면 해당 값을 시간의 함수로 표시 할 수 있습니다. 마찬가지로, 우리가 하나의 PC ( 일부 라인 에서 의 투영)를 가져 오면 값을 가지며 시간의 함수로 플로팅 될 수 있습니다. 따라서 원래 기능이 시계열 인 경우 PC도 시계열입니다.t R N R의 N 개의 t1t^RnRnt^

위의 @Nestor의 해석에 동의합니다. 각 원본 기능은 PC의 선형 조합으로 볼 수 있으며 PC가 서로 상관 관계가 없으므로 원본 기능이 분해되는 기본 기능으로 생각할 수 있습니다. 푸리에 분석과 약간 비슷하지만, 사인과 코사인의 고정 된 기초를 취하는 대신, 우리는 첫 번째 PC가 대부분의 분산 등을 설명한다는 의미에서이 특정 데이터 세트에 대해 "가장 적합한"기초를 찾고 있습니다.

여기서 "대부분의 차이를 계산"이란 하나의 기본 함수 (시계열) 만 사용하고 모든 기능을 근사하려고하면 첫 번째 PC가 가장 잘 작동한다는 것을 의미합니다. 따라서 기본적인 직관은 첫 번째 PC가 사용 가능한 모든 시계열에 가장 적합한 기본 함수 시계열이라는 것입니다.


Freeman et al. 너무 혼란 스럽습니까?

Freeman et al. 열이 아닌 행 (!)으로 변수 (예 : 뉴런)를 사용하여 데이터 행렬 을 분석합니다 . 변수가 일반적으로 PCA보다 중앙에 있기 때문에 의미가있는 행 평균을 뺍니다. 그런 다음 SVD를 수행합니다 :위에서 언급 한 용어를 사용하여 열은 주축 ( 방향 )이고 열 은 주요 구성 요소 (길이 시계열 )입니다. Y =USV. URNSV tY^

Y^=USV.
URnSVt^

Freeman et al.에서 인용 한 문장. 정말 혼란 스럽습니다.

주성분 ( 의 열 )은 길이 벡터 이고, 점수 ( 의 열 )는 길이 (복셀 수)의 벡터이며 , 방향에 대한 각 복셀의 투영을 나타냅니다. 해당 구성 요소에 의해 주어진 볼륨에 돌기, 즉 전체 뇌지도를 형성합니다.t U의 NVt^Un

첫째, 열은 PC가 아니지만 PC는 단위 규범으로 확장됩니다. 둘째, "maths"는 일반적으로 PC를 의미하기 때문에 열은 점수가 아닙니다. 셋째, "해당 구성 요소가 제공하는 방향"은 암호 개념입니다. 내가 생각하는 그들이 여기 그림을 뒤집어 생각하는 것이 좋습니다 것을 에서 포인트 이제 각각의 신경 세포가 데이터 포인트 (아닌 변수)입니다 그래서, 차원 공간. 개념적으로는 큰 변화처럼 들리지만, 수학적으로는 주축과 [단위 표준] 주성분이 위치를 변경한다는 것만으로도 거의 차이가 없습니다. 이 경우 위의 내 PC ( long 시계열)가 주축이됩니다. 즉U N t t UVUnt^t^direction 및 는 이러한 방향에 대한 정규화 된 투영으로 간주 될 수 있습니다 (정규화 된 점수?).U

나는 이것이 매우 혼란 스럽기 때문에 단어의 선택을 무시하고 수식을 보도록 제안합니다. 이 시점부터 저는 Freeman et al. 그것을 써.


Q2 : 주 공간 궤도는 무엇입니까?

단일 시험 데이터를 가져 와서 처음 두 주축 (예 : 의 첫 두 열)에 투영합니다 . 원래 데이터 경우 두 가지 주요 구성 요소가 다시 제공됩니다. 다시, 하나의 주축에 대한 투영은 하나의 주성분, 즉 long 시계열이다.Y의 tUY^t^

당신은 어떤 단일 시험 자료와 함께 할 경우 , 다시 두 얻을 -long 시계열을. 영화에서 각 단일 선은 이러한 투영에 해당합니다. x 좌표는 PC1에 따라 진화하고 y 좌표는 PC2에 따라 진화합니다. 이것을 "상태 공간"이라고합니다. PC1은 PC2에 대해 표시됩니다. 점이 움직일 때 시간이지나갑니다.tYt^

영화의 각 줄은 다른 단일 시행 얻습니다 .Y


나는이 질문을 아래에 의견으로 물었지만 @amoeba가 도울 수 있습니까? 첫 번째 주성분 가중치 벡터는 모든 복셀에서 평균 시계열이 붕괴됩니까? 평균 인 경우 개별 데이터 추적에 맞게 가장 작은 점수를 얻습니다. –
statHacker

1
짧은 대답은 ' 아니오' 이며, 일반적으로 평균 시계열은 아니지만 많은 경우에 아주 가깝습니다. 예를 들어 서로 다른 기울기 (양수 및 음수)를 가진 직선이 모두 0 인 시계열 모음을 생각해보십시오. 그런 다음 평균 시계열은 거의 0에 가깝습니다. 그러나 첫 번째 PC는 강력한 선형 라인이 될 것입니다. BTW, 나는 이것이 훌륭한 질문 이라고 생각 하며 자세한 내용 및 / 또는 수치를 원한다면 별도의 질문으로 다시 질문하십시오. Freeman et al.에 대한이 질문의 어떤 부분도 복제하지 마십시오. 그것들을 분리하십시오.
amoeba는 Reinstate Monica가

(또는 응답에 관심이있는 사람)-Q2와 관련하여 "처음 두 [PC]에 [각 시험]을 프로젝트"한다는 것은 무엇을 의미합니까? 수학적으로 U는 길이 n 복셀의 벡터이며, 행렬에 길이 n 행렬 Y를 곱하면 첫 번째 PC에 대한 차원 축소가 달성됩니다. U 점수의 매트릭스 (즉, 처음 두 PC에서 각 복셀의 거리)와 관련하여 직감을 제공 할 수 있습니까? J의 각 시점을 위의 첫 번째 이미지의 2 차원 플롯에서 각 복셀 위치 투영의 2 차원 평균으로 생각할 수 있습니까?
statHacker 2014

네 말이 맞아, 나는 이것을 잘못 설명했다. 질문을 여러 부분으로 확장하여 질문을 편집했습니다. 처음부터 다시 읽거나 변경 사항을 확인하여 따르십시오. 를 "점수" 라고 생각하지 마십시오 !! 는 주요 축, 뉴런 공간의 방향입니다. 그들은 단일 시험을 치르고 두 개의 첫 주축에 투영합니다. 그들이 한 시험에서 얻는 것은 두 개의 시계열입니다. 둘 다 시간의 함수로 플로팅 할 수 있지만 대신 PC1 대 PC2에 대해 플로팅 할 수 있습니다. 이것은 "상태 공간"입니다. 각 줄은 다른 단일 시도에 해당합니다! 그래서 마지막 질문에 : 아니오! UUU
amoeba는 Reinstate Monica가

" "가 오타입니까? : "위에서 주장하는 용어를 사용하여 U의 열은 주축 (Rn 방향)이고 SV의 열은 주요 구성 요소 (길이 t ^의 시계열)입니다." SV
statHacker

1

pVt^

Y^n×t^Un×nVt^×t^

두 번째 질문과 관련하여. 주어진 방정식은

J=UTY

J×t

tt^J

t^

나는 채색 방법론을 다루지 않았으며, 그 점에 대해 확신하기까지는 시간이 걸릴 것입니다. 나는 복셀 당 회귀에 의해 착색이 얻어지면서 그림 4c와의 유사성에 대한 의견을 발견했다. 도 6에서 각각의 흔적은 전체 이미지 인공물이다. 내가 똑바로 넣지 않으면 나는 그것이 그림의 주석에 따라 그 시간 세그먼트 동안 자극의 방향이라고 생각합니다.


위의 첫 번째 그림은 매번 동일한 시각적 자극을 사용한 실험을 나타냅니다. 해당 데이터에는 다른 그림과 동영상이 있습니다. 위의 두 번째 그림은 자극이 다른 방향의 시각적 자극 인 다른 실험을 나타내며, 위의 두 번째 그림의 흔적은 단순히 다른 시각적 자극 방향에 해당하는 색상으로 표시됩니다.
statHacker

YT^ \n

VS
J=UY.
U

나는 물건을 다시 정리했습니다. 사과, 내가 다른 것을 분류하기 전에 남은 것입니다.
추측 :

모든 도움을 주셔서 감사합니다. 첫 번째 주성분 가중치 벡터는 모든 복셀에서 평균 시계열이 붕괴됩니까? 평균 인 경우 개별 데이터 추적에 맞게 가장 작은 점수를 얻습니다.
statHacker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.