희소 PCA가 PCA보다 정확히 어떻게 더 좋습니까?


24

수업 전에 몇 가지 강의에서 PCA에 대해 배웠고이 매혹적인 개념에 대해 더 많이 알게되면서 희소 한 PCA에 대해 알게되었습니다.

내가 틀리지 않은지 물어보고 싶었다. 이것은 희소 한 PCA이다. PCA에서, 변수 를 가진 데이터 점이 있다면 , PCA를 적용하기 전에 차원 공간 에서 각 데이터 점을 나타낼 수있다 . PCA를 적용한 후에는 동일한 차원 공간에서 다시 표시 할 수 있지만 이번에는 첫 번째 주요 구성 요소에 가장 많은 분산이 포함되고 두 번째 주요 구성 요소에는 두 번째로 가장 큰 분산 방향이 포함됩니다. 따라서 마지막 몇 가지 주요 구성 요소를 제거 할 수 있습니다. 그 이유는 많은 데이터 손실을 일으키지 않으며 데이터를 압축 할 수 있기 때문입니다. 권리?nppp

스파 스 PCA는 이들 성분이 벡터 계수에서 0이 아닌 값을 포함하도록 주요 성분을 선택하고 있습니다.

이것이 데이터를 더 잘 해석하는 데 어떻게 도움이됩니까? 누구나 모범을 보여줄 수 있습니까?


안녕하세요 @GrowinMan! 이 질문에 대한 나의 대답을 보셨습니까? 당신은 그것이 대답한다고 생각합니까? 그렇지 않은 경우 설명을 요청하거나 질문을보다 정확하게 작성하기 위해 질문을 편집 해보십시오. 그렇다면, 근처의 녹색 체크 표시를 클릭하여 투표를 승인하고 "수락"하는 것을 고려하십시오. CrossValidated에서 투표가 0이고 수락 된 스레드가 0 인 것으로 나타났습니다.
아메바는 고 모니

@amoeba 지적 해 주셔서 감사합니다. 한동안 로그인하지 않았으며 머신 러닝에도 약간의 영향을 미칩니다. 나는 주말에 의해 여기에 다시 답변을 읽으십시오, 그리고 마크 답변거야
GrowinMan

문제 없어. 우연히이 오래된 실을 발견하고 당신에게 줄을 떨어 뜨릴 것이라고 생각했습니다.
amoeba는

안녕하세요 @GrowinMan! :-)이 오래된 스레드를 다시 발견했습니다. 여전히이 질문이 해결되지 않았다고 생각되면 언제든지 설명을 요청하십시오. 그렇지 않으면 근처의 녹색 체크 표시를 클릭하여 답변 중 하나를 올리거나 "수락"하는 것이 좋습니다. CrossValidated에서 투표가 0이고 수락 된 스레드가 0 인 것으로 나타났습니다.
amoeba는 22:41에 Reinstate Monica가

답변:


29

스파 스 PCA가 표준 PCA보다 해석하기 쉬운 지 여부는 조사중인 데이터 세트에 따라 다릅니다. 여기에 제가 어떻게 생각하는지가 있습니다 : 때때로 PCA 프로젝션 (데이터의 저 차원 표현)에 더 관심이 있고 때로는 주축에 더 관심이 있습니다. 후자의 경우에는 스파 스 PCA가 해석에 어떤 이점을 가질 수 있습니다. 몇 가지 예를 들어 보겠습니다.

예를 들어 신경 데이터 (많은 뉴런의 동시 기록)를 사용하고 있으며 신경 인구 활동의 저 차원 표현을 얻기 위해 PCA 및 / 또는 관련 차원 축소 기술을 적용하고 있습니다. 1000 개의 뉴런이있을 수 있습니다 (즉, 내 데이터는 1000 차원 공간에 살고 있음). 3 개의 주요 주축에 투영하려고합니다. 이 축이 무엇인지는 전적으로 관련이 없으며이 축을 어떤 식 으로든 "해석"할 의도가 없습니다. 내가 관심이있는 것은 3D 투영입니다 (활동은 시간에 따라 다르 므로이 3D 공간에서 궤도를 얻습니다). 따라서 각 축에 0이 아닌 계수가 모두 1000이면 괜찮습니다.

다른 한편으로, 누군가는 (위의 개별 뉴런과 달리) 개별 차원이 분명한 의미를 갖는 더 "유형적인"데이터로 작업하고있을 수 있습니다. 예를 들어, 크기는 무게에서 가격에 이르는 다양한 자동차의 데이터 세트입니다. 이 경우 실제로 주요 주축 자체에 관심이있을 수 있습니다. 왜냐하면 하나의 말을 원할 수 있기 때문입니다. 첫 번째 주축은 자동차의 "환상성"에 해당합니다. 투영이 희소 ​​한 경우 많은 변수가 계수를 가지므로이 특정 축과 관련이 없기 때문에 이러한 해석은 일반적으로 제공하기가 더 쉽습니다 . 표준 PCA의 경우 일반적으로 모든 변수에 대해 0이 아닌 계수를 얻습니다.0

Zou et al. 의 2006 Sparse PCA 논문 에서 더 많은 사례와 후자의 사례를 찾을 수 있습니다 . 그러나 전자와 후자의 차이점은 (어쩌면 그랬더라도) 어디서나 명시 적으로 논의 된 것을 보지 못했습니다.


3
이것은 훌륭한 설명이었습니다. "유형"데이터의 또 다른 예는 많은 질문이있는 설문 조사이며 설문 조사에서 어떤 질문이 가장 중요한지 알고 싶어 할 수 있으며 이들 중 일부 조합이 실제로 하나의 주제에 대해 묻는 것입니다.
bdeonovic

1

따라서 마지막 몇 가지 주요 구성 요소를 제거 할 수 있습니다. 그 이유는 많은 데이터 손실을 유발하지 않으며 데이터를 압축 할 수 있기 때문입니다. 권리?

네 말이 맞아. 그리고 변수 이 있으면 주요 구성 요소 이 있고 모든 변수 는 모든 PC 에 정보 (기여)를 .V 1 , V 2 , , V N N P C 1 , P C 2 , NV1,V2,,VNNV I P C의 PC1,PC2,,PCNViPCi

Sparse PCA에는 계수가 0 인 변수 에 대한 정보가없는 가 있습니다 .V j , V l , PCiVj,Vl,

그런 다음 하나의 평면 에 예상보다 적은 변수가있는 경우 ( )이 평면에서 이들 간의 선형 관계를 지우는 것이 더 쉽습니다. N(PCi,PCj)N


방법!? 이 경우 Principal Components가 드문 경우가 아니라 어떻게 해석하기가 쉬운 지 알 수 없습니다.
GrowinMan

2
내가 생각하는 방식은 PC보다 변수 클러스터링을 자주 수행하여 결과를 더 이해하기 쉽게 만드는 것입니다. Sparse PC는 가변 클러스터링과 PC를 한 단계로 결합하여 분석가의 결정이 덜 필요합니다.
Frank Harrell

1

PCA의 희소성의 이점을 이해하려면 "로드"와 "변수"의 차이점을 알아야합니다 (이 이름은 다소 임의적이지만 중요하지는 않습니다).

nxp 데이터 행렬 X 가 있다고 가정합니다 . 여기서 n 은 샘플 수입니다. X = USV ' 의 SVD는 세 개의 행렬을 제공합니다. 처음 두 Z = US를 결합하면 Principal Components의 행렬이 나타납니다. 감소 된 순위가 k 이고 Znxk 라고 가정 해 봅시다 . Z 는 기본적으로 차원 축소 후 데이터 매트릭스입니다. 역사적으로

주성분 (일명 Z = US ) 의 항목을 변수라고합니다.

반면, V ( pxk )에는 Principal Loading Vectors가 포함되어 있으며 해당 항목을 주로드라고합니다. PCA의 특성을 감안할 때 Z = XV 임을 쉽게 알 수 있습니다. 이것은 다음을 의미합니다.

주성분은 주 행렬을 데이터 행렬 X 의 선형 조합의 계수로 사용하여 파생됩니다 .

이제 이러한 정의가 잘못되었으므로 희소성을 살펴 보겠습니다. 대부분의 논문 (또는 적어도 내가 만난 대부분)은 주요 적재 (일명 V ) 에 희소성을 적용 합니다. 희소성의 장점은

희소 V 는 (원래의 p- 차원 특징 공간 으로부터) 어떤 변수 가 유지할 가치 가 있는지 알려줄 것이다 . 이것을 통역 성이라고합니다.

Z 의 항목에 희소성을 적용하는 해석도 있습니다. 사람들이 "가변 변수 PCA"라고 부르는 것을 보았습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.