PCA 점수 해석


16

누구든지 PCA 점수를 해석하는 데 도움을 줄 수 있습니까? 내 데이터는 곰에 대한 태도에 관한 설문에서 나온 것입니다. 로딩에 따르면, 나는 주요 구성 요소 중 하나를 "곰 공포"로 해석했습니다. 해당 주요 구성 요소의 점수가 각 응답자가 해당 주요 구성 요소까지 측정하는 방식과 관련이 있습니까 (긍정적이든 부정적이든).


귀하의 질문에 대한 짧은 대답은 예입니다.
amoeba는

답변:


13

기본적으로 요인 점수는 요인 부하에 의해 가중 된 원시 반응으로 계산됩니다. 따라서 각 변수가 주성분과 어떤 관련이 있는지 확인하려면 첫 번째 차원의 요인 부하를 살펴 봐야합니다. 특정 변수와 관련된 높은 양의 (대) 음의 로딩을 관찰한다는 것은 이러한 변수가이 구성 요소에 긍정적 (즉, 음)으로 기여한다는 것을 의미합니다. 따라서 이러한 변수에서 높은 점수를받은 사람들은이 특정 차원에서 높은 (각각 낮은) 요인 점수를 갖는 경향이 있습니다.

상관 원을 그리면 첫 번째 주축에 "긍정적으로"vs. "부정적으로"(있는 경우) 기여하는 변수에 대한 일반적인 아이디어를 얻는 데 유용 하지만 R을 사용하는 경우 FactoMineR 패키지와 dimdesc()기능.

다음은 USArrests데이터 가 포함 된 예입니다 .

> data(USArrests)
> library(FactoMineR)
> res <- PCA(USArrests)
> dimdesc(res, axes=1)  # show correlation of variables with 1st axis
$Dim.1
$Dim.1$quanti
         correlation  p.value
Assault        0.918 5.76e-21
Rape           0.856 2.40e-15
Murder         0.844 1.39e-14
UrbanPop       0.438 1.46e-03
> res$var$coord  # show loadings associated to each axis
         Dim.1  Dim.2  Dim.3   Dim.4
Murder   0.844 -0.416  0.204  0.2704
Assault  0.918 -0.187  0.160 -0.3096
UrbanPop 0.438  0.868  0.226  0.0558
Rape     0.856  0.166 -0.488  0.0371

최신 결과에서 볼 수 있듯이 첫 번째 차원은 주로 폭력 행위 (모든 종류)를 반영합니다. 개별지도를 보면 오른쪽에 위치한 주가 그러한 행위가 가장 빈번한 주임을 분명히 알 수 있습니다.

대체 텍스트 대체 텍스트

이 관련 질문에 관심이있을 수도 있습니다. 주요 구성 요소 점수는 무엇입니까?


5

저에게 PCA 점수는 적은 변수로 데이터 세트를 설명 할 수있는 형식으로 데이터를 다시 정렬 한 것입니다. 점수는 각 항목이 구성 요소와 얼마나 관련이 있는지 나타냅니다. 요인 분석에 따라 이름을 지정할 수 있지만 PCA가 공통적으로 보유한 요소뿐만 아니라 요인 분석에서와 같이 데이터 세트의 모든 분산을 분석하므로 잠재적 변수가 아니라는 점을 기억해야합니다.


예, FA와 달리 PCA에 오류 모델이 포함되어 있지 않다는 것은 옳습니다. 특정 지점에 +1했습니다. PCA에서 추출한 주요 구성 요소가 진정한 LV가 아니라 "고려하는 것이 합리적"이라고 언급했습니다. 스케일 신뢰성 또는 측정 모델 평가에 관심이 없다면 PCA를 사용하든 FA를 사용하든 거의 차이가 없습니다. 이제 데이터 분석은 종종 변수 간의 상관 관계를 설명하거나 주제 그룹을 찾는 것과 관련이 있으므로 요인 공간의 하나 이상의 차원을 해석 하는 아이디어입니다 . (...)
chl

(...) FactoMineR 에는 와인에 대한 데이터 세트가 포함되어 있으며 Michel Tenenhaus가 수행 한 PLS 또는 CCA (PCA, MFA) 및 PLS 또는 CCA와 함께 여러 가지 요인 방법을 사용하여 재생할 수 있습니다.
chl

@chl, 패키지에 대한 힌트를 주셔서 감사합니다. 확인해 보겠습니다. PCA 대 FA에서 나는 한 시점에 동의합니다. 커뮤니티 (공통 분산) 추정값을 특정 요인 구조의 가치를 평가하는 데 매우 유용하게 사용하기 때문에 대부분의 애플리케이션에 FA를 선호합니다. 그러나 그것은 개인적인 취향 일 수 있습니다.
richiemorrisroe

당신은 전적으로 옳습니다 (이전 답변은 매우 명확했기 때문에 이미 답변했습니다). 단지 (회전하지 않은) PCA는 CA, MFA, MCA와 함께 데이터 분석 (특히 프랑스어 학교)에서 자체적 인 역사를 가지고 있습니다. 반면 Paul Kline은 성격 연구에서 FA를 사용하는 것에 관한 두 가지 훌륭한 책을 가지고 있습니다. 다가오는 William Revelle의 책은 R 사용자를 위해 흔들어야합니다. 어쨌든, 나는 이것이 상관 관계 매트릭스의 구조를 분석하는 데 유용한 도구라고 생각합니다.
chl

0

PCA 결과 (다른 차원 또는 구성 요소)는 일반적으로 실제 개념으로 변환 할 수 없습니다. 구성 요소 중 하나가 "곰을 두려워하는"것으로 가정하는 것이 잘못되었다고 생각하는 이유는 무엇입니까? 기본 구성 요소 프로시 저는 데이터 행렬을 동일하거나 적은 양의 차원을 가진 새 데이터 행렬로 변환하며 결과 차원은 분산을 더 잘 설명하는 것부터 덜 설명하는 것까지 다양합니다. 이 성분은 원래 변수와 계산 된 고유 벡터의 조합을 기반으로 계산됩니다. Overal PCA 프로시 저는 원래 변수를 직교 변수로 변환합니다 (선형 독립적). 이것이 pca 절차에 대해 조금 명확히하는 데 도움이되기를 바랍니다.


일부 변수의 선형 조합이 여전히 요인 축에 대한 각 변수의 가중 기여를 반영하는 것으로 해석 될 수 있음에 동의하십니까?
chl

그렇습니다.
mariana soffer

그렇다면 왜 이름을 밝히지 못하게됩니까? 변수는 매니페스트 변수로 간주되며, 경우에 따라 가중치 조합이 잠재 (관찰되지 않은) 요소를 반영하는 것으로 간주하는 것이 좋습니다.
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.