답변:
기본적으로 요인 점수는 요인 부하에 의해 가중 된 원시 반응으로 계산됩니다. 따라서 각 변수가 주성분과 어떤 관련이 있는지 확인하려면 첫 번째 차원의 요인 부하를 살펴 봐야합니다. 특정 변수와 관련된 높은 양의 (대) 음의 로딩을 관찰한다는 것은 이러한 변수가이 구성 요소에 긍정적 (즉, 음)으로 기여한다는 것을 의미합니다. 따라서 이러한 변수에서 높은 점수를받은 사람들은이 특정 차원에서 높은 (각각 낮은) 요인 점수를 갖는 경향이 있습니다.
상관 원을 그리면 첫 번째 주축에 "긍정적으로"vs. "부정적으로"(있는 경우) 기여하는 변수에 대한 일반적인 아이디어를 얻는 데 유용 하지만 R을 사용하는 경우 FactoMineR 패키지와 dimdesc()
기능.
다음은 USArrests
데이터 가 포함 된 예입니다 .
> data(USArrests)
> library(FactoMineR)
> res <- PCA(USArrests)
> dimdesc(res, axes=1) # show correlation of variables with 1st axis
$Dim.1
$Dim.1$quanti
correlation p.value
Assault 0.918 5.76e-21
Rape 0.856 2.40e-15
Murder 0.844 1.39e-14
UrbanPop 0.438 1.46e-03
> res$var$coord # show loadings associated to each axis
Dim.1 Dim.2 Dim.3 Dim.4
Murder 0.844 -0.416 0.204 0.2704
Assault 0.918 -0.187 0.160 -0.3096
UrbanPop 0.438 0.868 0.226 0.0558
Rape 0.856 0.166 -0.488 0.0371
최신 결과에서 볼 수 있듯이 첫 번째 차원은 주로 폭력 행위 (모든 종류)를 반영합니다. 개별지도를 보면 오른쪽에 위치한 주가 그러한 행위가 가장 빈번한 주임을 분명히 알 수 있습니다.
이 관련 질문에 관심이있을 수도 있습니다. 주요 구성 요소 점수는 무엇입니까?
저에게 PCA 점수는 적은 변수로 데이터 세트를 설명 할 수있는 형식으로 데이터를 다시 정렬 한 것입니다. 점수는 각 항목이 구성 요소와 얼마나 관련이 있는지 나타냅니다. 요인 분석에 따라 이름을 지정할 수 있지만 PCA가 공통적으로 보유한 요소뿐만 아니라 요인 분석에서와 같이 데이터 세트의 모든 분산을 분석하므로 잠재적 변수가 아니라는 점을 기억해야합니다.
PCA 결과 (다른 차원 또는 구성 요소)는 일반적으로 실제 개념으로 변환 할 수 없습니다. 구성 요소 중 하나가 "곰을 두려워하는"것으로 가정하는 것이 잘못되었다고 생각하는 이유는 무엇입니까? 기본 구성 요소 프로시 저는 데이터 행렬을 동일하거나 적은 양의 차원을 가진 새 데이터 행렬로 변환하며 결과 차원은 분산을 더 잘 설명하는 것부터 덜 설명하는 것까지 다양합니다. 이 성분은 원래 변수와 계산 된 고유 벡터의 조합을 기반으로 계산됩니다. Overal PCA 프로시 저는 원래 변수를 직교 변수로 변환합니다 (선형 독립적). 이것이 pca 절차에 대해 조금 명확히하는 데 도움이되기를 바랍니다.