PCA의 로딩 대 고유 벡터 : 언제 또는 서로를 사용해야합니까?


67

주성분 분석 (PCA)에서 고유 벡터 (단위 벡터)와 고유 값을 얻습니다. 이제 로딩을 로 정의하겠습니다

Loadings=EigenvectorsEigenvalues.

고유 벡터는 단지 방향이며 하중 (위에 정의 된대로)에도 이러한 방향을 따라 분산이 포함됩니다. 그러나 더 나은 이해를 위해 고유 벡터 대신로드를 사용해야하는 위치를 알고 싶습니다. 예가 완벽 할 것입니다!

나는 일반적으로 고유 벡터를 사용하는 사람들 만 보았지만 가끔씩 (위에서 정의 한대로) 로딩을 사용하고 실제로 차이점을 이해하지 못한다고 느끼게됩니다.

답변:


66

PCA에서는 공분산 (또는 상관) 행렬을 척도 부분 (고유 값)과 방향 부분 (고유 벡터)으로 분할합니다. 그런 다음 고유 벡터에 scale : loadings 을 부여 할 수 있습니다 . 따라서 변수의 공변량에서 도출 된 변수가 변수와 주성분 사이의 공변량의 형태로 되돌아 오기 때문에 변수간에 관측 된 공분산 / 상관과 크기에 따라 하중이 비교 될 수 있습니다. 실제로, 하중 원래 변수와 단위 척도 성분 간의 공분산 / 상관 입니다. 이 답변 은 PCA 또는 요인 분석에서 하중과 성분을 변수와 연관시키는 계수가 무엇인지 기하학적으로 보여줍니다.

로딩 :

  1. 주요 구성 요소 또는 요인을 해석하는 데 도움이됩니다. 그것들은 단위 스케일 구성 요소 또는 요소 가 변수를 정의하거나 "로드"하는 선형 조합 가중치 (계수)이기 때문 입니다.

    (고유 벡터는 직교 변환 또는 투영 계수 일 뿐이며, 그 값 내에 "부하"가 없습니다. "부하"는 (양의 정보) 분산, 크기입니다. 변수의 분산을 설명하기 위해 PC가 추출됩니다. 우리는 eivenvalue 우리는 "로드"분산의 양에 의해 상기 베어 계수 sq.root하여 고유 벡터를 곱하면 (=로 설명)의 PC의 차이는.. 그 인하여 우리의 측정 값으로 계수 할 협회 , 공동 변동성.)

  2. 해석이 용이하도록로드 가 때때로 "회전" (예 : varimax)됩니다 ( 또한 참조 ).

  3. 원래 공분산 / 상관 행렬 을 "복원" 하는 것은 부하입니다 ( 점에서 PCA와 FA의 뉘앙스를 설명하는 이 스레드 참조 ).

  4. PCA에서는 고유 벡터와 하중 모두에서 성분 값을 계산할 수 있지만 요인 분석에서는 하중에서 요인 점수 를 계산 합니다.

  5. 그리고 무엇보다도 로딩 행렬은 유익합니다. 수직 제곱합은 고유 값, 성분의 분산이며 수평 제곱합은 변수에 의해 "설명되는"변수 분산의 일부입니다.

  6. 스케일링 또는 표준화 된 로딩은 로딩을 변수의 st로 나눈 값입니다. 일탈; 상관 관계입니다. (PCA가 상관 기반 PCA 인 경우 상관 기반 PCA는 표준화 된 변수에 대한 PCA이므로 로딩 은 스케일링 것과 동일합니다.) 스케일링 된로드 제곱 은 pr의 기여를 의미합니다. 변수에 구성 요소; 값이 높으면 (1에 가까움) 변수는 해당 구성 요소만으로도 잘 정의됩니다.

PCA 및 FA에서 수행 된 계산의 예를 참조하십시오 .

고유 벡터 는 단위 스케일 로딩입니다. 그것들은 변수를 주성분 또는 역으로 직교 변환 (회전)하는 계수 (코사인)입니다. 따라서 구성 요소 값 (표준화되지 않음)을 쉽게 계산할 수 있습니다. 그 외에는 사용량이 제한되어 있습니다. 고유 벡터 값 제곱 은 변수가 pr에 기여한다는 의미를 갖습니다. 구성 요소; 값이 높으면 (1에 가까움) 구성 요소는 해당 변수만으로도 잘 정의됩니다.

하지만 고유 벡터부하는 두 가지 방법 단순히 같은 점의 좌표 정상화 A의 데이터의 열 (변수)를 나타내는 행렬도는 ,이 두 용어를 혼용하는 것은 좋은 생각이 아니다. 이 답변은 이유를 설명했습니다. 도 참조하십시오 .


3
다른 필드에 다른 규칙이 존재할 수 있습니까? 내 분야 (화학 측정법)에서 일반적인 방법은 정규 직교 하중을 갖는 것이므로이 질문을 우연히 발견했습니다. 다시 말해, scale / magnitude / 는 하중이 아닌 점수로 들어갑니다. 하중은 고유 벡터 행렬의 역수 = 전치와 같습니다. 나는 이것을 "화학량 론 및 양도 계 핸드북"과 화학 계측에있어 가장 중요한 2 가지 참고 문헌을 고려한 "종합 화학 계량 학"으로 두 번 점검했다. eigenvalues
cbeleites

1
참고 : 화학 측정에서는 많은 예측 모델이 사전 처리에 PCA 회전 (!)을 사용하기 때문에 원본 데이터에서 점수를 계산하는 것이 매우 중요합니다.
cbeleites

2
@cbeleites, PCA / FA 용어 관습이 다른 분야 (또는 다른 소프트웨어 또는 서적)에서 다를 수있을뿐만 아니라, 그것들이 다르다고 말합니다. 심리학과 인간 행동에서 "부하"는 일반적으로 이름으로 표시 한 것입니다 (잠재력에 대한 해석은 보류 중이며 점수는 축소, 표준화 및 아무도 신경 쓰지 않을 수 있기 때문에 해당 분야에서 매우 중요합니다). 다른 한편으로, R이 사이트의 많은 사용자들은 PCA의 고유 벡터 "로딩"을 호출했으며 아마도 함수 문서에서 나온 것일 수 있습니다.
ttnphns

무엇보다도 "로드"라는 단어가 PCA와 정확히 같은 의미가 아닌 다른 기술 (LDA, 정식 상관 관계 등)에서 사용되고 있다는 점이 가장 중요합니다. 따라서 단어 자체가 손상되었습니다. 나는 @amoeba에 동의하는데, 그것은 그것을 완전히 삭제하고 "상관"또는 "계수"와 같은 통계적으로 정확한 용어로 대체한다고 가정합니다. 다른 한편으로, "고유 벡터"는 svd / 고유 분해와 일부 희미한 방법에 국한된 것으로 보인다. 축소는 전혀 또는 고전적인 형태로 수행하지 않습니다.
ttnphns

1
당신은 혼합해야합니다. 로딩의 도움으로 PC 점수를 올바르게 계산하면 단순히 표준화 된 구성 요소로 끝납니다. 고유 벡터로하는 것과 같은 공식으로이 점수를 계산하지 않습니다. 오히려 내 # 4의 링크에 설명 된 수식을 사용해야합니다.
ttnphns

3

하중, 계수 및 고유 벡터에 대해 많은 혼란이있는 것 같습니다. 단어 로딩은 요인 분석에서 비롯되며 요인에 대한 데이터 행렬의 회귀 계수를 나타냅니다. 계수를 정의하는 계수가 아닙니다. 예를 들어 Mardia, Bibby 및 Kent 또는 기타 다변량 통계 교과서를 참조하십시오.

최근 몇 년 동안 단어 로딩은 PC 계수를 나타내는 데 사용되었습니다. 여기서는 계수에 행렬 고유 값의 sqrt를 곱한 값을 나타내는 것으로 보입니다. 이들은 PCA에서 일반적으로 사용되는 수량이 아닙니다. 주성분은 단위 규범 계수로 가중 된 변수의 합으로 정의됩니다. 이러한 방식으로 PC는 해당 고유 값과 같은 표준을 가지며, 이는 구성 요소가 설명하는 분산과 동일합니다.

요인 분석에는 요인이 단위 규범을 가져야합니다. 그러나 FA와 PCA는 완전히 다릅니다. PC의 계수 회전은 구성 요소의 최적 성을 파괴하기 때문에 거의 수행되지 않습니다.

FA에서 요인은 고유하게 정의되지 않으며 다른 방식으로 추정 할 수 있습니다. 중요한 양은 공분산 행렬의 구조를 연구하는 데 사용되는 하중 (진정 량)과 커뮤니티입니다. 구성 요소를 추정하려면 PCA 또는 PLS를 사용해야합니다.


2
특정 측면에서 정확한이 답변 (+1)은 FA와 PCA 둘 다가 요인 / 구성 요소 (후자는 단위 스케일링 됨)에 의한 명시 적 변수의 예측 으로 볼 수 있고 비교 될 수 있음을 간과합니다 . 하중은 해당 예측의 계수입니다. 따라서 하중은 FA와 PCA 필드에서 모두 동일한 의미로 사용됩니다.
ttnphns

3
또한 일부 소스 (특히 R 문서)는 부주의하게 고유 벡터 계수를 "부하"라고 부릅니다 . 여기 에는 로드 가 없습니다 .
ttnphns

FA와 PCA가 다른 모델을 추정하고있는 것입니다. FA에서 오류는 PCA에서 직교하지만 그렇지 않습니다. 모델을 낚시질하지 않는다면 결과를 비교할 때 많은 점을 알지 못합니다. 하중은 대각선 행렬이있는 곳 L과 같이 공분산 행렬을 작성하는 데 사용되는 행렬의 열입니다 . 그들은 PC의 계수와 아무 관련이 없습니다. S = LL' + CC
Marco Stamazza

they have nothing to do with the PCs' coefficientsFA와 마찬가지로 PCA에서 로딩을 계산합니다. 모델은 다르지만 로딩의 의미는 두 방법에서 비슷합니다.
ttnphns

0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Loadings = 직교 정규 고유 벡터 ⋅ (절대 고유 값)의 제곱근 여기서 직교 정규 고유 벡터 (즉, 정규 정규 고유 벡터)라는 용어는 방향을 제공하고 (절대 고유 값)의 제곱근이라는 용어는 값을 제공합니다.

일반적으로 사람들은 적재물의 표시는 중요하지 않지만 그 크기는 중요하다고 말합니다. 그러나 한 고유 벡터의 방향을 반대로 바꾸면 (다른 고유 벡터의 부호를 그대로 유지) 계수 점수가 변경됩니다. 따라서 추가 분석이 크게 영향을받습니다.

지금까지이 모호함에 대한 만족스러운 해결책을 얻을 수 없었습니다.


0

이 문제에 대해 약간의 혼동이있는 것으로 보이므로, 문헌에서 훌륭한 해답을 찾을 수있는 곳에 대한 관찰과 지침을 제공 할 것입니다.

먼저, PCA 및 요인 분석 (FA) 관련됩니다. 일반적으로 주요 구성 요소는 정의에 따라 직교하지만 FA의 유사 요소는 아닙니다. 간단히 말해서, 주성분은 데이터의 순수한 eigenanalysis에서 파생되기 때문에 임의의 유용한 방식으로 인자 공간에 걸쳐 있습니다. 반면에 요인들은 우연의 일치에 의해서만 직교하는 (즉, 상관 관계가 없거나 독립적 인) 실제 실체를 나타낸다.

우리가 가지고 말 의의 각각에서 관찰 리터의 주제. 이들은 s 개의 행과 l 개의 열을 갖는 데이터 매트릭스 D 로 배열 될 수있다 . DD = SL이 되도록 스코어 행렬 S로딩 행렬 L 분해 될 수있다 . Ss 개의 행을 가지며 Ll 개의 열을 가지며 각 열의 두 번째 차원은 인수 개수 n 입니다. 요인 분석의 목적은 D 를 분해하는 것입니다기본 점수와 요인을 드러내는 방식으로 L 의 하중 은 D 의 관측 값을 구성하는 각 점수의 비율을 알려줍니다 .

PCA에서 L 은 열로 D 의 상관 또는 공분산 행렬의 고유 벡터를 갖습니다 . 이들은 통상적으로 대응하는 고유 값의 내림차순으로 배열된다. n 의 값, 즉 분석에서 유지해야 할 중요한 주성분의 수, 따라서 L 의 행 수 는 일반적으로 고유 값의 scree plot 또는 문학. PCA에서 S 의 열은 n 개의 추상 주성분 자체를 형성합니다 . n 값은 데이터 세트의 기본 차원입니다.

요인 분석의 목적은 변환 행렬 T를 사용하여 D = STT -1 L 인 추상 성분을 의미있는 요인으로 변환하는 것입니다 . ( ST )는 변환 된 스코어 매트릭스이고, ( T - 1L )은 변환 된 로딩 매트릭스이다.

위의 설명은 그의 화학에서 우수한 요인 분석에서 Edmund R. Malinowski의 표기법을 대략 따릅니다 . 주제에 대한 소개로 시작 장을 강력히 추천합니다.


이 답변에는 몇 가지 문제가있는 것 같습니다. 먼저 수식을 확인하십시오. 정확하지 않습니다. 둘째, FA와 PCA의 차이점을 논의하려고합니다. 우리는 CV에 별도의 긴 스레드를 가지고 있지만 현재 스레드는 로딩 대 고유 벡터에 관한 것이므로 답이 잘못되었습니다. 셋째, "FA의 목적은 D를 분해하는 것"또는 "FA의 목적은 추상 구성 요소를 의미있는 요소로 변환하는 것"과 같은 문구에서 FA의 그림이 왜곡됩니다.
ttnphns

필자가 게시 한 자료는이 글에서 논의한 내용과 관련이 있다고 생각하며, 하중과 고유 벡터 사이의 관계에 대한 설명을 제공합니다.
Matt Wenham

주제에 내 연구는 본 논문에 요약되어 있습니다 : onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
매트 Wenham에게

좋아, 어쩌면 귀하의 계정은 여전히 ​​유효한 특별 계정 일 것입니다-귀하가 제공하는 출처를 읽지 않고 말할 수는 없습니다. 그러나 PCA의 로딩과 고유 벡터 사이의 "관계"는 모두 문제에 대한 공식에 있다고 언급하고 싶습니다. 따라서 "설명"할 것이 거의 없습니다 (다른 유틸리티 여야 함). 주목해야 할 또 다른 사항은 Q는 주로 FA가 아니라 PCA에 관한 것입니다. 그리고 결국, 모든 FA 방법이 고유 벡터를 전혀 다루지는 않지만, 반드시 로딩을 다루는 것은 아닙니다.
ttnphns

사과, 공개적으로 사용 가능한 내 논문 버전은 없다고 생각하지만, 2 주 동안의 재판으로 Deepdyve.com을 통해 액세스 할 수 있습니다. Malinowski의 책의 첫 장은 위의 링크에서 구할 수 있습니다. 이것은 eigenanalysis를 언급하지 않고 기본 사항을 다룹니다. 필자가 사용한 변형 (목표 인자 분석)이 수행하는 것처럼 eigenanalysis없이 인자 분석을 수행 할 수 있음을 알지 못했음을 인정해야합니다.
Matt Wenham

-1

나는 그 이름에 약간 혼란스러워서 "대기 과학의 통계적 방법"이라는 책에서 검색했으며, PCA의 다양한 용어에 대한 요약을 제공했습니다. 여기에 책의 스크린 샷이 있습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.