주요 성분 분석 결과의 결론


9

다음과 같이 수행 된 주요 구성 요소 분석 결과를 이해하려고합니다.

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

위의 결과에서 다음을 결론 짓는 경향이 있습니다.

  1. 분산의 비율은 특정 주성분의 분산에서 총 분산의 양을 나타냅니다. 따라서 PC1 변동성은 전체 데이터 변동의 73 %를 설명합니다.

  2. 표시된 회전 값은 일부 설명에서 언급 된 '로드'와 동일합니다.

  3. PC1의 회전을 고려할 때 Sepal.Length, Petal.Length 및 Petal.Width는 직접적으로 관련되어 있으며 모두 Sepal.Width (PC1의 회전에서 음의 값을 가짐)와 반비례 관계가 있다고 결론 내릴 수 있습니다.

  4. 식물에 영향을 줄 수있는 요인 (일부 화학 / 물리 기능 시스템 등)이있을 수 있습니다 (한 방향으로 세로 길이, 꽃잎 길이 및 꽃잎 너비, 반대 방향으로 Sepal.Width).

  5. 하나의 그래프에 모든 회전을 표시하려면 각 회전에 해당 주성분의 분산 비율을 곱하여 총 변동에 대한 상대적 기여도를 표시 할 수 있습니다. 예를 들어, PC1의 경우 0.52, -0.26, 0.58 및 0.56의 회전에 0.73 (PC1의 비례 분산)이 곱 해져 요약 (res) 출력으로 표시됩니다.

위의 결론에 대해 맞습니까?

질문 5 관련 편집 : 다음과 같이 간단한 회전 차트에 모든 회전을 표시하고 싶습니다. 여기에 이미지 설명을 입력하십시오

PC2, PC3 및 PC4는 변동에 대한 점진적인 기여가 적으므로 변수의 하중을 조정 (감소)하는 것이 합리적입니까?


Re (5) : "로드"라고 부르는 것은 실제로로드가 아니라 공분산 행렬의 고유 벡터, 일차 주 방향, 일차 주축입니다. "부하"는 고유 값의 제곱근, 즉 설명 된 분산 비율의 제곱근을 곱한 고유 벡터입니다. 로딩은 많은 훌륭한 속성을 가지고 있으며 해석에 유용합니다. 예 : PCA에서 로딩 대 고유 벡터 : 언제 사용할 것인가? 예, 고유 벡터를 스케일하는 것은 의미가 있습니다. 설명 된 분산의 제곱근을 사용하십시오.
amoeba

@amoeba : PCA의 Biplot, 로테이션 또는 로딩에 무엇이 그려져 있습니까?
rnso

추가 토론 에 대해서는 내 답변 을 참조하십시오 .
amoeba

답변:


9
  1. 예. 이것이 올바른 해석입니다.
  2. 예, 회전 값은 구성 요소로드 값을 나타냅니다. 이것은 prcomp 문서에 의해 확인 되지만, 왜 그것들이 "회전"측면의이 부분에 라벨을 붙 였는지 확실하지 않습니다. 로딩이 어떤 직교 (아마도) 또는 비스듬한 (아마도) 방법을 사용하여 회전되었음을 의미하기 때문입니다.
  3. Sepal.Length, Petal.Length 및 Petal.Width가 모두 긍정적으로 관련되어있는 것처럼 보이지만 PC1에서 Sepal.Width의 작은 음의 로딩에 많은 주식을 넣지 않을 것입니다. PC2에서 훨씬 더 강력하게로드됩니다. 분명히, Sepal.Width는 여전히 다른 세 가지 변수와 부정적인 관계가있을 수 있지만 첫 번째 주요 구성 요소와는 크게 관련이없는 것 같습니다.
  4. 이 질문을 바탕으로 PCA (Principal Components Analysis)보다는 공통 요소 (CF) 분석을 사용하여 더 나은 서비스를 제공 할 수 있을지 궁금합니다. 가설을 세운 식물 계수와 같이 의미있는 이론적 차원을 밝히는 것이 목표 인 경우 CF는 적절한 데이터 축소 기술에 가깝습니다. Sepal.Length, Petal.Length 및 Petal.Width에 영향을 줄 수 있습니다. 나는 당신이 일종의 생물 과학 (아마도 아마도)에 감사하다는 것을 알고 있지만 Fabrigar et al., 1999, Widaman, 2007 등의 PCA v. CF 구별에 대한 심리학에는 좋은 글이 있습니다. 이 둘의 핵심 차이점은 PCA가 모든 분산이 실제 점수 분산이라고 가정하고 (오류는 가정하지 않음), CF 파티션은 요인을 추출하고 인자 로딩을 추정하기 전에 오차 분산에서 실제 점수 분산을 분할하는 것입니다. 결국 사람들은 종종 비슷한 모양의 솔루션을 얻을 수 있지만 사람들이 분기 할 때 PCA가 로딩 값을 과대 평가하고 구성 요소 간의 상관 관계를 과소 평가하는 경향이 있습니다. CF 접근법의 또 다른 장점은 최대 가능성 추정을 사용하여 하중 값의 유의성 테스트를 수행 할 수 있으며 선택한 솔루션 (1 요인, 2 요인, 3 요인 또는 4 요인)에 대한 지수를 얻을 수 있다는 것입니다. 데이터.
  5. 각 구성 요소의 분산 비율에 따라 막대에 가중치를 부여하지 않고 인자 로딩 값을 플롯합니다. 이러한 접근 방식으로 표시하려는 내용을 이해하지만 독자가 분석에서 구성 요소로드 값을 오해 할 가능성이 있다고 생각합니다. 그러나 각 구성 요소가 설명하는 분산의 상대적 크기를 시각적으로 보여주는 방법을 원한다면 그룹 막대의 불투명도 조작을 고려할 수 있습니다 (을 사용 ggplot2하는 경우alpha각 구성 요소에 의해 설명 된 분산의 비율 (예 : 더 많은 단색 = 설명 된 더 많은 분산)을 기반으로합니다. 그러나 내 경험상, 당신의 수치는 PCA의 결과를 나타내는 전형적인 방법이 아닙니다. 테이블이나 두 가지 (로드 + 분산이 하나, 컴포넌트 상관이 다른 것)가 훨씬 더 간단하다고 생각합니다.

참고 문헌

Fabrigar, LR, Wegener, DT, MacCallum, RC, & Strahan, EJ (1999). 심리적 연구에서 탐색 적 요소 분석의 사용 평가. 심리학 적 방법 , 4 , 272-299.

KF Widaman (2007). 공통 요소와 구성 요소 : 교장과 원칙, 오류 및 오해 . R. Cudeck & RC MacCallum (Eds.)에서 100에서의 요인 분석 : 역사적 발전과 미래 방향 (pp. 177-203). Mahwah, NJ : Lawrence Erlbaum.


2
+1, 여기에는 많은 장점이 있습니다. Re (2) : 공분산 행렬의 고유 벡터를 여기서는 "회전"이라고합니다. PCA는 본질적으로 새로운 좌표계가 고유 벡터와 정렬되도록 좌표계의 회전이기 때문입니다. 이것은 요인 분석에서 "인자의 직교 / 경사 회전"과 관련이 없습니다. Re (5) : 나는 당신이 여기서 무엇을 의미하는지 이해하지 못하며, OP가 고유 벡터를 "하나의 그래프로" "표시"하려는 방식을 이해하지 못합니다. 아마도 OP는 biplot을 염두에두고 있습니다. 그렇다면 고유 벡터는 종종 고유 값에 의해 스케일되지만 제곱근에 의해 스케일됩니다.
amoeba

귀하의 주제에 대한 멋진 꽃 테마 플롯이지만, @rnso :)
jsakaluk

1
  1. 아니요, 데이터의 총 분산이 아닙니다. 주어진 데이터의 총 분산은 4 가지 주요 구성 요소로 표현하고자합니다. 더 많은 주요 구성 요소를 추가하여 항상 더 많은 총 분산을 찾을 수 있습니다. 그러나 이것은 빠르게 붕괴됩니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.