상관 관계 또는 공분산에 대한 PCA : 상관 관계에 대한 PCA는 의미가 있습니까? [닫은]


32

주성분 분석 (PCA)에서 공분산 행렬 또는 상관 행렬을 선택하여 성분을 찾을 수 있습니다 (각 고유 벡터에서). 두 행렬 사이의 고유 벡터가 같지 않기 때문에 서로 다른 결과 (PC 로딩 및 점수)를 제공합니다. 내 이해는 이것이 원시 데이터 벡터 와 표준화 가 직교 변환을 통해 연관 될 수 없기 때문에 발생한다는 것입니다 . 수학적으로, 유사한 행렬 (즉, 직교 변환에 의해 관련됨)은 동일한 고유 값을 갖지만 반드시 동일한 고유 벡터는 아닙니다.ZXZ

이것은 내 마음에 약간의 어려움을 제기합니다.

  1. 동일한 시작 데이터 세트에 대해 서로 다른 두 가지 답변을 얻을 수 있다면 PCA는 실제로 의미가 있습니까?

  2. 상관 행렬 접근법을 사용할 때 PC를 계산하기 전에 각 변수는 자체 표준 편차로 표준화 (축소)됩니다. 그렇다면 데이터가 이미 미리 스케일링 / 압축 된 경우 최대 분산의 방향을 찾는 것이 어떻게 합리적입니까? 상관 관계 기반 PCA가 매우 편리하다는 것을 알고 있습니다 (표준 변수는 차원이 없으므로 선형 조합을 추가 할 수 있습니다. 다른 장점은 실용주의를 기반으로합니다).

공분산 기반 PCA는 (변수의 분산이 크게 다른 경우에도) 유일하게 정확한 것으로,이 버전을 사용할 수 없을 때마다 상관 기반 PCA도 사용해서는 안됩니다.

상관 관계 또는 공분산에 대한 PCA 라는이 스레드가 있다는 것을 알고 있습니다 . -그러나 대수적으로 올바른 솔루션 일 수도 있고 아닐 수도있는 실용적인 솔루션을 찾는 데에만 초점을 둔 것 같습니다.


4
솔직하게 말씀 드리고 어느 시점에서 귀하의 질문을 그만 두었습니다. PCA가 의미가 있습니다. 그렇습니다. 상관 또는 분산 / 공분산 행렬 중 어떤 것을 사용할 지에 따라 결과가 다를 수 있습니다. 변수가 다른 척도로 측정되는 경우 상관 기반 PCA가 선호되지만 결과를 지배하기를 원하지는 않습니다. 0에서 1까지의 일련의 변수가 있고 값이 매우 큰 (상대적으로 0에서 1000과 같이) 일부 변수가 있다고 가정하면 두 번째 변수 그룹과 관련된 큰 분산이 우세합니다.
Patrick

4
그러나 그것은 다른 많은 기술들에서도 마찬가지입니다. 패트릭의 관점은 합리적이라고 생각합니다. 또한 그것은 단지 의견 일 뿐이며, 공격적이 될 필요는 없습니다. 일반적으로, 왜 문제에 접근 할 수있는“대수적으로”올바른 방법이 있어야한다고 가정하십니까?
갈라

5
아마도 PCA를 잘못된 방식으로 생각하고있을 것입니다. 단지 변환 일 뿐이므로 회귀 분석 또는 요인 분석과 달리 데이터 모델에 대한 가정에 의존하거나 정확하거나 부정확하다는 데는 의문의 여지가 없습니다.
Scortchi-Monica Monica 복원

5
이 문제의 핵심은 표준화가 무엇을하고 PCA가 어떻게 작동하는지에 대한 오해에있는 것으로 보인다. PCA를 잘 이해하려면 더 높은 차원의 모양을 시각화해야하므로 이해할 수 있습니다. 나는 어떤 종류의 오해에 기초한 다른 많은 질문들과 마찬가지로이 질문은 좋은 질문이며, 그 답변은 많은 사람들이 이전에 완전히 이해하지 못했을 수도있는 진실을 밝힐 수 있기 때문에 계속 열려 있어야합니다.
whuber

6
PCA는 아무 것도“고발”하지 않습니다. 사람들은 PCA에 대한 주장을하고 실제로 현장에 따라 매우 다르게 사용합니다. 이러한 사용 중 일부는 어리 석거나 의문의 여지가 있지만 기술의 단일 변형이 분석의 맥락이나 목표를 참조하지 않고 "대수적으로 올바른"것으로 가정하는 것은 그리 밝지 않은 것처럼 보입니다.
갈라

답변:


29

두 질문에 대한 이러한 답변이 귀하의 우려를 진정시키기를 바랍니다.

  1. 상관 행렬 표준화 된 (즉, 중심이 아니라 재조정 된) 데이터의 공분산 행렬이다. 즉,의 공분산 매트릭스 (있는 경우)를 서로 다른 데이터 셋. 따라서 자연스럽고 결과가 다르다는 것을 귀찮게해서는 안됩니다.
  2. 그렇습니다. 표준화 된 데이터로 최대 편차의 방향을 찾는 것이 합리적입니다. 즉, "공변량"이 아니라 "상관성"의 방향입니다. 즉, 다변량 데이터 클라우드의 모양에 대한 불균형 분산 (원래 변수)의 영향이 제거 된 후.

@whuber 님이 추가다음 텍스트 및 사진 (감사합니다. 또한 내 코멘트 참조)

다음은 표준화 된 데이터의 주축 (오른쪽에 표시)을 찾는 것이 왜 합리적인지를 보여주는 2 차원 예입니다. 오른쪽 그림에서 좌표축의 분산이 이제 정확히 1.0 (1.0)이더라도 구름에는 여전히 "모양"이 있습니다. 마찬가지로, 더 높은 차원에서 표준화 된 점 구름은 모든 축을 따라 분산이 정확히 같은 (1.0) 경우에도 비 구형 모양을 갖습니다. 주축 (해당 고유 값)은 해당 모양을 나타냅니다. 이것을 이해하는 또 다른 방법은 변수를 표준화 할 때 진행되는 모든 크기 조정 및 이동 은 기본 방향 자체가 아닌 좌표 축 방향에서만 발생한다는 점에 유의하십시오 .

그림

여기서 일어나고있는 것은 기하학적으로 매우 직관적이고 명확하기 때문에 이것을 "블랙 박스 작업"으로 특성화하기에는 무리가 있습니다. 반대로 표준화와 PCA는 데이터를 순서대로 처리하는 가장 기본적이고 일상적인 작업 중 일부입니다. 그들을 이해합니다.


의해 계속 @ttnphns

공분산 (예 : 중심 변수) 대신 상관 (예 : z- 표준 변수)에 대해 PCA (또는 요인 분석 또는 기타 유사한 유형의 분석)를 선호하는 경우는 언제 입니까?

  1. 변수가 다른 측정 단위 인 경우 분명합니다.
  2. 분석이 선형 연관 만 반영하기를 원할 때 . Pearson r 은 단일 척 (변량 = 1) 변수 간의 공분산 일뿐만 아니라; 일반적인 공분산 계수는 선형 관계와 단조 관계를 모두 수용하는 반면, 그것은 갑자기 선형 관계의 강도의 척도입니다.
  3. 연관성 이 원시 공동 편차보다는 상대 평균 편차 (평균에서) 를 반영하기를 원할 때 . 상관 관계는 분포, 분포, 공분산은 원래 측정 척도를 기준으로합니다. 리 커트 (Likert) 유형 항목으로 구성된 일부 임상 설문지에서 정신과 의사의 평가에 따라 환자의 정신 병리학 적 프로파일을 요인 분석하려면 공분산을 선호합니다. 전문가들은 심리적으로 평가 척도를 왜곡하지 않을 것이기 때문입니다. 반면에, 동일한 설문지로 환자의 자기 이식 량을 분석해야한다면 상관 관계를 선택했을 것입니다. 평신도의 평가는 상대적 "다른 사람들", "대부분" "허용 편차"일 것으로 예상됩니다 하나의 평가 척도를 "축소"하거나 "신축"하는 부분 확대.

1
1. 미안하지만, 이것은 귀찮게합니다. 외부 개인에게있어 표준화는 블랙 박스 작업이며, PCA 데이터 사전 조건의 일부 (ICA에도 해당)입니다. 그는 (원시) 입력 데이터, 특히 PCA 출력이 물리적으로 (즉, 표준화되지 않은 변수의 관점에서) 해석되어야하는 물리적 (치수) 데이터와 관련이있는 경우 자신의 (원시) 입력 데이터에 대한 한 가지 답변을 원합니다.
Lucozade

1
최신 개정판은 "공분산 기반 PCA가 유일하게 정확한 것"이라는 재 검증으로 보입니다. 지금까지의 답변 전체가 본질적으로 "아니오; 그것에 대해 생각하는 잘못된 방법; 그리고 여기에 이유가 있습니다"가 있기 때문에 그러한 압도적 인 불일치에 대한 토론을 어떻게 이끌어야하는지 알기가 어렵습니다.
Nick Cox

4
@Lucozade : 귀하의 신청서에 대한 귀하의 설명이 혼란 스러웠습니다 :-PCA는 어떻게 추천 합니까? 성능을 어떻게 측정 했습니까? 마찬가지로 마지막 코멘트 : - 최적의 무엇을 하시나요?
Scortchi-Monica Monica 복원

5
@Lucozade : 사실, Scortchi가 말한 것을 들어주십시오. 당신은 짜증을 계속 추격하는 것 같습니다. PCA는 단순히 공간에서 특수한 형태의 회전 데이터입니다. 항상 입력 데이터로 수행하는 작업을 최적으로 수행합니다. cov-corr 딜레마는 데이터 전처리에 뿌리를두고 PCA 수준이 아니라 해당 수준에서 해결되는 실용적인 것입니다.
ttnphns 2016 년

1
@Lucozade : 귀하의 특정 요구에 따라, 당신은 cov 기반 PCA를 원하는 것이 옳다는 당신의 대답에 근거한 나의 (전문가가 아닌) 의견 일 것입니다. 다시 말하지만, 변수는 데이터 / 측정 유형 (동일한 기계 유형 및 볼트 단위의 모든 데이터) 측면에서 모두 동종입니다. 나에게 당신의 예는 분명히 cov-PCA가 정확한 경우이지만, 이것이 항상 그런 것은 아니라는 점에 유의하십시오. 나중에 스레드의 중요한 점이라고 생각합니다 (cor v. cov의 선택은 대소 문자에 따라 다르며 필요합니다. 데이터 및 응용 프로그램을 가장 잘 이해하는 사람이 결정해야 함). 당신의 연구에 행운을 빕니다!
Patrick

6

실용적 관점에서 말하면, 여기서는 인기가 없을 것입니다. 다른 스케일로 측정 된 데이터가 있다면 상관 관계 (화학자라면 'UV 스케일링')를 사용하지만 변수가 동일한 스케일에 있고 크기가 중요한 경우 (예를 들어, 분광 데이터), 공분산 (데이터 중심 만)이 더 의미가 있습니다. PCA는 규모에 따라 결정되는 방법이며 로그 변환은 치우친 데이터에 도움이 될 수 있습니다.

20 년 동안의 화학 측정법을 실제로 적용한 것에 대한 나의 소소한 의견으로는 약간의 실험을 거쳐 데이터 유형에 가장 적합한 것이 무엇인지 확인해야합니다. 하루가 끝나면 결과를 재현하고 결론의 예측 가능성을 입증해야합니다. 시행 착오의 경우가 종종 있지만 중요한 것은 수행 한 작업이 문서화되고 재현 가능하다는 것입니다.


4
여기서 옹호하는 실질적인 접근 방식은 공분산과 상관 관계가 모두 보증 될 때 "둘 다 시도하고 무엇이 가장 효과가 좋은지 확인"으로 귀결됩니다. 그 순수한 경험적 입장은 어떤 선택이든, 연구자가 자신이 임의로 자신을 선호한다는 것을 이해하더라도 연구원이 미리 알고 있어야하는 현실에 대한 자신의 가정이나 패러다임과 관련이 있다는 사실을 숨겨줍니다. "가장 잘 작동하는 것"을 선택하는 것은 즐거움이라는 기분, 즉 마약을 활용하는 것입니다.
ttnphns 2016 년

-2

엑스나는에스2(엑스1/에스1)+(엑스2/에스2)=(엑스1+엑스2)/에스엑스1+엑스2에스1에스2도. 선형 조합의 분산을 최대화하는 데는 아무런 소용이 없습니다. 이 경우 PCA는 다른 데이터 세트에 대한 솔루션을 제공하므로 각 변수의 스케일이 다릅니다. 그런 다음 나중에 corr_PCA를 사용할 때 표준화를 해제하면 문제가없고 필요할 수 있습니다. 그러나 raw corr_PCA 솔루션을 그대로 가져 와서 중지하면 물리적 솔루션과 관련이없는 수학 솔루션을 얻을 수 있습니다. 이후에 비 표준화가 최소로 의무화되는 것처럼 보이기 때문에 (즉, 역 표준 편차로 축을 '언 스트레칭') cov_PCA를 사용하여 시작할 수있었습니다. 지금까지 읽고 있다면 감동합니다! 지금은 Jolliffe 's book, p. 42, 이것은 저와 관련된 부분입니다 :그러나, 상관 변수 PC가 원래 변수로 다시 표현 될 때 원래 변수가 아니라 표준화 된 변수에 대한 분산을 최대화하는 x의 선형 함수라는 것을 잊어서는 안됩니다. ' 내가 이것 또는 그 의미를 잘못 해석하고 있다고 생각한다면,이 발췌 부분은 추가 토론을위한 좋은 초점이 될 수 있습니다.


3
여기 사람들이 당신에게 전달하려는 모든 것과 조화를 이루는 당신의 자신의 대답이 당신을 위해 불안한 상태로 남아 있기 때문에 너무 재미 있습니다. 여전히 There seems little pointPCA에서 상관 관계에 대해 논쟁 합니다. 음, 원시 데이터 (이상하게도 "물리적 데이터")에 가까이 머물러야하는 경우 다른 ( "왜곡 된") 데이터에 해당하므로 상관 관계를 사용해서는 안됩니다.
ttnphns 2016 년

2
(계속) Jolliffe의 인용 상태에 따르면 상관 관계를 통해 얻은 PC는 항상 자신이 될 수 있으며 원래 변수의 선형 조합으로 다시 표현할 수는 있지만 공분산에서 PC로 다시 되돌릴 수는 없습니다. 따라서 Jolliffe는 PCA 결과가 사용 된 전처리 유형에 전적으로 의존하고 "참", "정품"또는 "유니버설"PC가 존재하지 않는다는 생각을 강조합니다.
ttnphns

2
실제로 Jolliffe 아래의 여러 줄은 X'X매트릭스 의 PCA-PCA의 또 다른 "형식"을 말합니다 . 변수 중심화가 수행되지 않기 때문에이 형식은 cov-PCA보다 원본 데이터와 "더 가깝습니다". 그리고 결과는 대개 완전히 다릅니다 . 코사인에서 PCA를 수행 할 수도 있습니다. 공분산 또는 상관 관계가 가장 많이 사용되지만 사람들은 모든 버전의 SSCP 매트릭스 에서 PCA를 수행 합니다.
ttnphns 2016 년

3
이 답변의 기초는 데이터가 측정되는 단위가 본질적인 의미를 갖는다는 암시적인 가정입니다. 우리는 데이터 의 의미 를 변경하지 않고 옹스트롬, 파섹 또는 그 밖의 길이, 피코 초 또는 천년 단위로 시간을 측정하도록 선택할 수 있습니다 . 공분산에서 상관 관계로의 변경은 단지 단위의 변경 일뿐입니다 (단, 외부 데이터에 특히 민감합니다). 이것은 문제가 공분산 상관 관계가 아니라 분석을 위해 데이터를 표현하는 유익한 방법을 찾는
whuber

3
@ttnphns 나는 "단순히"고마워합니다. 의미가 "심오한"의미인지 여부에 관계없이 변수의 표준화는 문자 그대로 값의 적절한 표현, 즉 측정 단위의 변경입니다. 이 관찰의 중요성은이 스레드에서 나타나는 일부 주장에 대한 시사점에 있으며, 그 중 가장 중요한 것은 "공분산 기반 PCA가 유일하게 정확한 것"입니다. 궁극적으로 데이터 의 본질적인 임의의 측면, 즉 데이터를 기록하는 방식 에 의존하는 정확성에 대한 개념은 옳지 않습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.