요인 점수를 계산하는 방법 및 PCA 또는 요인 분석에서 "점수 계수"매트릭스는 무엇입니까?

내 이해에 따르면, 상관 관계에 기반한 PCA에서는 변수와 요인 사이의 상관 관계에 불과한 요인 (이 경우 주요 구성 요소) 로딩을 얻습니다. 이제 SPSS에서 요인 점수 를 생성해야 할 때 각 요인에 대한 각 응답자의 요인 점수를 직접 얻을 수 있습니다. 또한 SPSS에서 생성 한 " 구성 요소 점수 계수 행렬 "에 표준화 된 원래 변수를 곱하면 SPSS에서 얻은 것과 동일한 요인 점수를 얻습니다.

"요소 점수 계수 행렬"또는 "요소 점수 계수 행렬"(요소 또는 요소 점수를 계산할 수있는)이 계산되는 방식을 이해하도록 도와 줄 수 있습니까? 이 행렬에서 다른 계산 요소 점수 방법은 어떻게 다릅니 까?

spss pca factor-analysis

— 카르티 키아 판 데이
소스

공식은 예를 들어 stats.stackexchange.com/a/92512/3277에 제공 됩니다.

— ttnphns December

@amoeba, PCA를 수행하는 경우 "인자 점수"라는 단어는 "구성 요소 점수"를 의미합니다. 위의 링크 된 답변의 맨 아래를 참조하십시오-PCA 모델 내에서 FA에서 요인 점수를 계산하는 데 가장 자주 사용되는 공식은 정확한 (표준화 된) 구성 요소 점수를 생성합니다.

— ttnphns 2014

SPSS는 계수 의 행렬을 표시 하고 원래 변수 의 데이터 세트에 추가하여 점수를 새 변수로 저장합니다 (표준화 된) . OP-나는 표준화 한 다음 로 다중화 했다고 생각 합니다. 그리고 짜잔, SPSS가 데이터 세트에 추가 한 것입니다! OP의 질문은 와우! " 는 어떻게 계산 되었습니까?"

B

$\bf B$

X

$\bf X$

X

$\bf X$

X B

$\bf XB$

B

$\bf B$

— ttnphns 2014

@ttnphs 당신은 내가 의미하는 바를 정확하게 이해합니다. 그러나 내 문제는 XB를 사용하여 각 관측치의 요인 socre을 예측하는 경우 B가 factor loading이어야하지만 SPSS에서는 "rotated factor loading"이 아닌 "component score coefficient matrix"라고 가정합니다. "rotated factor loading"과 "component score coefficient matrix"의 관계 또는 차이점을 이해하고 싶었습니다.

— Kartikeya Pandey

그래서 링크에서 이해했을 때, A가 회전 계수 로딩이라면 (Inverse (A)) '는 "성분 점수 계수 매트릭스"이며 공식 A⋅diag를 사용하여 계산할 수도 있습니다. 역 ((고유 값))

— Kartikeya Pandey

요인 / 성분 점수 계산 방법

일련의 의견 후 나는 마침내 답변을 발표하기로 결정했다 (의견 등을 기반으로). PCA의 구성 요소 점수 및 요소 분석의 요소 점수를 계산합니다.

요소 / 부품 점수가 주어진다 , (분석 변수 중심 PCA / 요인 분석은 공분산에 기초하여 또는 경우 Z-표준화 가 상관 관계를 기반으로 한 경우는). 는 계수 / 성분 점수 계수 (또는 가중치) 행렬 입니다. 이 가중치는 어떻게 추정 할 수 있습니까? $\bf \hat{F}=XB$ $\bf X$ $\bf B$

표기법

-인자였다 어느 변수 (아이템) 또는 상관 공분산의 행렬 / PCA 분석. $\bf R$ p x p

-요소 / 성분 행렬 로딩 . 추출 후의 하중 (종종 라고도 함)은 잠복이 직교 또는 실제로 존재하거나 회전, 직교 또는 사선으로 된 적재 일 수 있습니다. 회전이비스듬한경우패턴로딩이어야합니다. $\bf P$ p x m $\bf A$

-자신 (부가금) 경사 회전 후의 인자 / 요소 간의 상관 관계 행렬. 회전 또는 직교 회전이 수행되지 않은 경우 이것은동일행렬입니다. $\bf C$ m x m

-재생 상관 / 공분산 행렬의 감소는(직교 솔루션)은, 그것의 대각선 communalities를 포함한다. $\bf \hat R$ p x p $\bf = PCP'$ $\bf = PP'$

-uniquenesses의 대각 행렬 (고유성 communality + = 대각 원소 ). 수식에서 가독성을 높이기 위해위첨자 ( )대신 아래 첨자로 "2"를 사용하고있습니다. $\bf U_2$ p x p $\bf R$ $\bf U^2$

-재생 상관 / 전체 공분산 . $\bf R^*$ p x p $\bf = \hat R + U_2$

일부 행렬 의 -의사 역수; 만약 전체 랭크 인 . $\bf M^+$ $\bf M$ $\bf M$ $\bf M^+ = (M'M)^{-1}M'$

일부 정사각형 대칭 행렬 , 로의증가는 고유분해 에 해당하며, 고유 값을 거듭 제곱 한 다음 다시 구성합니다. . $\bf M^{power}$ $\bf M$ $power$ $\bf HKH'=M$ $\bf M^{power}=HK^{power}H'$

계수 / 구성 요소 점수 계산의 대략적인 방법

Cattell이라고도하는이 인기있는 / 전통적인 접근 방식은 단순히 동일한 요소에 의해로드 된 항목의 값을 평균화 (또는 요약)하는 것입니다. 수학적으로, 이는 가중치 설정 금액 점수 계산에 . 이 접근법에는 세 가지 주요 버전이 있습니다. 1) 로딩을 그대로 사용하십시오. 2) 그것들을 이분법 화하십시오 (1 =로드, 0 =로드되지 않음); 3) 하중은 일부 임계 값보다 작지만 무부하 하중은 그대로 사용하십시오. $\bf B=P$ $\bf \hat{F}=XB$

품목이 동일한 척도 단위에있을 때이 방법을 사용하면 값 가 그대로 사용됩니다. 팩토링의 논리를 어 기지 않으면 서 가 팩터링에 들어갔을 때 를 사용하는 것이 좋습니다 . $\bf X$ $\bf X$

필자의 견해로 는 계수 / 구성 요소 점수를 계산하는 대략적인 방법의 주요 단점은 로드 된 항목 간의 상관 관계를 설명하지 않는다는 것입니다. 한 팩터로로드 된 항목이 밀접하게 연관되어 있고 하나가 더 강하게로드 된 경우 다른 항목은 합리적으로 젊은 복제본으로 간주되어 무게가 줄어들 수 있습니다. 세련된 방법은 그렇게하지만 거친 방법은 할 수 없습니다.

행렬 반전이 필요하지 않기 때문에 거친 점수는 계산하기 쉽습니다. 조잡한 방법의 장점 (컴퓨터 가용성에도 불구하고 여전히 널리 사용되는 이유를 설명 함)은 샘플링이 이상적이지 않을 때 (대표 성과 크기의 의미에서) 또는 분석이 잘 선택되지 않았습니다. 한 논문을 인용하기 위해, "합산 점수 방법은 신뢰성 또는 타당성의 증거가 거의 또는 전혀없이, 원본 데이터를 수집하는 데 사용 된 스케일이 테스트되지 않았고 탐색적일 때 가장 바람직 할 수 있습니다". 또한 , 요인 분석 모델이 요구하기 때문에 "요인"을 반드시 일 변량 잠재 본질로 이해하지 않아도됩니다 ( 참조 , 참조).). 예를 들어 요인을 현상 모음으로 개념화하면 항목 값을 합산하는 것이 합리적입니다.

계산 된 요소 / 구성 요소 점수 계산 방법

이러한 방법은 요인 분석 패키지가하는 일입니다. 그들은 다양한 방법으로 를 추정 합니다. 하중 또는 는 요인 / 성분으로 변수를 예측하기위한 선형 조합 의 계수 이지만 는 변수에서 요인 / 성분 점수를 계산하는 계수입니다. $\bf B$ $\bf A$ $\bf P$ $\bf B$

을 통해 계산 된 점수 스케일링된다 : 그들은 차이가 동일하거나 또는 가까운 1 (표준화 또는 근처 표준화)가 -없는 진정한 계수 편차를 (제곱 구조 하중의 합과 같게되는 각주 3 참조 여기를 ). 따라서 실제 요인의 분산으로 요인 점수를 제공해야하는 경우 해당 분산의 제곱근에 점수 (st.dev.1로 표준화 된 점수)를 곱하십시오. $\bf B$

새로운 관측치에 대한 점수를 계산할 수 있도록 수행 된 분석에서 를 보존 할 수 있습니다 . 또한, 는 계수가 요인 분석에 의해 개발되거나 검증 될 때 설문의 척도를 구성하는 아이템을 가중시키는 데 사용될 수있다. (제곱 된) 계수 는 항목에 대한 요인의 기여 로 해석 될 수 있습니다 . 회귀 계수가 표준화 된 것처럼 계수를 표준화 할 수 있음 $\bf B$ $\bf X$ $\bf B$ $\bf B$ (여기서)은 분산이 다른 항목의 기여도를 비교합니다. $\beta=b \frac{\sigma_{item}}{\sigma_{factor}}$ $\sigma_{factor}=1$

점수 계수 행렬에서 점수를 계산하는 것을 포함하여 PCA 및 FA에서 수행 된 계산을 보여주는 예 를 참조하십시오 .

PCA 설정에서 하중 (수직 좌표)와 점수 계수 (비대칭 좌표)에 대한 기하학적 설명이 여기 의 첫 두 그림에 나와 있습니다 . $a$ $b$

이제 세련된 방법으로 넘어갑니다.

방법

PCA에서 계산 $\bf B$

구성 요소 로딩이 추출되었지만 회전되지 않은 경우, 이며, 여기서 은 고유 값으로 구성된 대각 행렬입니다 . 이 공식은 각 열을 성분의 분산 인 각 고유 값 으로 간단히 나눕니다 . $\bf B= AL^{-1}$ $\bf L$ m $\bf A$

마찬가지로, 입니다. 이 공식은 회전, 직교 (예 : varimax) 또는 비스듬한 구성 요소 (적재)에도 적용됩니다. $\bf B= (P^+)'$

PCA에 적용되는 경우 요인 분석에 사용 된 일부 방법 (아래 참조)은 동일한 결과를 반환합니다.

계산 된 구성 요소 점수는 분산 1을 가지며 실제 표준화 된 구성 요소 값입니다 .

통계 데이터 분석에서 주요 구성 요소 계수 행렬 라는 것이 무엇이며 회전 로딩 행렬이 아닌 완전 로딩으로 계산되는 경우 기계 학습 문헌에서 종종 (PCA 기반) 미백 행렬로 표시되며 표준화 된 주요 구성 요소는 다음과 같습니다. "미백 된"데이터로 인식됩니다. $\bf B$ p x p

공통 요인 분석에서 계산 $\bf B$

구성 요소 점수와 달리 요인 점수 는 절대 정확하지 않습니다 . 그것들은 요인 들의 알려지지 않은 실제 값 에 대한 근사치 일뿐 입니다. 이는 구성 요소와 달리 요인이 매니페스트와 분리 된 외부 변수이고 분포에 알려지지 않은 자체 변수를 가지기 때문에 사례 수준에서 커뮤니티 또는 고유성 값을 알 수 없기 때문입니다. 그 요인 점수 불확실성 의 원인은 다음과 같습니다 . 불확정성 문제는 요인 솔루션의 품질과 논리적으로 독립적입니다. 요인이 얼마나 많은지 (인구에서 데이터를 생성하는 잠재성에 해당) 요인의 응답자 점수가 얼마나 많은지 (정확한 추정치) 추출 된 요인). $\bf F$

요인 점수는 근사치이므로이를 계산하는 다른 방법이 존재하고 경쟁합니다.

요인 점수를 추정하는 회귀 또는 Thurstone 또는 Thompson의 방법 은 로 주어집니다 . 여기서 는 구조 하중의 행렬입니다 (직교 계수 솔루션의 경우 ). 회귀 방법의 기초는 각주 있습니다. $\bf B=R^{-1} PC = R^{-1} S$ $\bf S=PC$ $\bf A=P=S$ $^1$

노트. 에 대한이 공식은 PCA에서도 사용할 수 있습니다. PCA에서는 이전 섹션에서 인용 한 공식과 동일한 결과를 제공합니다. $\bf B$

FA (PCA 아님)에서 회귀 적으로 계산 된 요인 점수는 "표준화되지 않은"것으로 나타납니다. 1은 아니지만 과 동일한 분산을 갖습니다. 변수로이 점수를 회귀 분석합니다. 이 값은 변수에 의한 요인의 결정 정도 (알 수없는 실제 값)-실제 요인에 대한 예측의 R- 제곱 및 회귀 방법이 최대화하는-계산의 "유효성"으로 해석 될 수 있습니다. 점수. 그림는 형상을 보여줍니다. ( $\frac {SS_{regr}}{(n-1)}$ $^2$ 은 모든 정제 된 방법에 대한 점수 분산과 같지만, 회귀 분석법의 경우에만 수량이 참 f의 결정 비율과 동일합니다. f에 의한 값 점수.) $\frac {SS_{regr}}{(n-1)}$

회귀 방법 의 변형 으로 , 공식에서 대신 를 사용할 수 있습니다 . 좋은 요소 분석에서 과 는 매우 유사하다는 근거가 보장됩니다 . 그러나, 그렇지 않은 경우, 특히 요인 수가 실제 모집단 수보다 적은 경우이 방법은 점수에서 강한 편향을 생성합니다. 그리고이 "재생 된 R 회귀"방법을 PCA와 함께 사용해서는 안됩니다. $\bf R^*$ $\bf R$ $\bf R$ $\bf R^*$ m

PCA의 방법 은 Horst (Mulaik) 또는 이상적인 (ized) 가변 접근 (Harman)이라고도합니다. 이것으로 회귀 방법 에 대신 의 화학식이다. 공식이 로 감소한다는 것을 쉽게 알 수 있습니다 (그래서 우리는 실제로 를 알 필요가 없습니다 ). 요소 점수는 마치 요소 점수 인 것처럼 계산됩니다. $\bf \hat R$ $\bf R$ $\bf B= (P^+)'$ $\bf C$

"변수 이상화"[라벨 인자 또는 성분에 따라 이후 사실에서 비롯 모델 변수의 예측 된 부분이 그것은 다음 있지만,이 대신 미지위한 추정하는 점수로 ; 그러므로 우리는 "이상화"한다 .] $\bf \hat X = FP'$ $\bf F= (P^+)' \hat X$ $\bf X$ $\bf \hat X$ $\bf F$ $\bf \hat F$ $\bf X$

사용 된 하중이 PCA의 하중이 아니라 요인 분석이기 때문에이 방법은 요인 점수에 대한 PCA 구성 요소 점수를 전달하지 않습니다. 점수에 대한 계산 방식 만 PCA의 방식과 동일합니다.

바틀렛의 방법 . 여기서, . 이 방법은 모든 응답자에 대해 고유 ( "오류") 요인에 대한 편차 를 최소화하려고합니다 . 공통 요소 점수의 차이는 같지 않으며 1을 초과 할 수 있습니다. $\bf B'=(P'U_2^{-1}P)^{-1} P' U_2^{-1}$ p

Anderson-Rubin 방법 은 이전의 수정으로 개발되었습니다. . 점수의 편차는 정확히 1입니다. 그러나이 방법은 직교 인수 솔루션에만 해당됩니다 (경사 솔루션의 경우 여전히 직교 점수를 산출 함). $\bf B'=(P'U_2^{-1}RU_2^{-1}P)^{-1/2} P'U_2^{-1}$

맥도날드-앤더슨-루빈 방법 . McDonald는 Anderson-Rubin을 경사 요인 솔루션까지 확장했습니다. 그래서 이것은 더 일반적입니다. 직교 요소를 사용하면 실제로 Anderson-Rubin으로 줄어 듭니다. 일부 패키지는 "Anderson-Rubin"이라고 부르는 동안 McDonald의 방법을 사용할 수 있습니다. 공식은 : , 및 얻어진다 $\bf B= R^{-1/2} GH' C^{1/2}$ $\bf G$ $\bf H$ . (물론 첫 번째열만사용하십시오.) $\text{svd} \bf (R^{1/2}U_2^{-1}PC^{1/2}) = G \Delta H'$ m $\bf G$

그린의 방법 . 맥도날드 - 앤더슨 루빈과 같은 수식을 사용하지만, 및 다음과 같이 계산된다 : . ( 물론 첫 번째 열만 사용하십시오 .) Green의 방법은 유사성 (또는 고유성) 정보를 사용하지 않습니다. 변수의 실제 커뮤니티가 점점 더 평등 해짐에 따라 McDonald-Anderson-Rubin 방법에 접근하고 수렴합니다. 또한 PCA의 로딩에 적용되는 경우 Green은 기본 PCA의 방법과 같은 구성 요소 점수를 반환합니다. $\bf G$ $\bf H$ $\text{svd} \bf (R^{-1/2}PC^{3/2}) = G \Delta H'$ m $\bf G$

Krijnen et al . 이 방법은 하나의 공식으로 이전 두 가지를 모두 수용하는 일반화입니다. 아마도 새로운 기능이나 중요한 새로운 기능을 추가하지 않을 것이므로 고려하지 않습니다.

정제 된 방법 사이의 비교 .

회귀 방법은 요인 점수와 해당 요인의 알 수없는 실제 값 사이의 상관 관계를 최대화 하지만 (즉, 통계적 유효성을 최대화 함 ) 점수는 다소 편향되어 있으며 요인간에 다소 잘못 연관됩니다 (예 : 솔루션의 요인이 직교 인 경우에도 상관 관계가 있음). 이들은 최소 제곱 추정치입니다.
PCA의 방법은 또한 최소 제곱이지만 통계적 유효성이 떨어집니다. 계산 속도가 더 빠릅니다. 오늘날 컴퓨터 때문에 요인 분석에 자주 사용되지 않습니다. ( PCA 에서이 방법은 기본적이고 최적입니다.)
Bartlett의 점수는 실제 요인 값의 편향 추정치입니다. 점수는 다른 요인의 실제 알 수없는 값과 정확하게 상관 관계를 갖도록 계산됩니다 (예 : 직교 솔루션에서는 점수와 상관 관계가 없음). 그러나 다른 요인에 대해 계산 된 요인 점수 와 여전히 부정확 한 상관 관계가있을 수 있습니다 . 이는 최대 가능성 ( 가정 의 다변량 정규성 ) 추정치입니다. $\bf X$
Anderson-Rubin / McDonald-Anderson-Rubin 및 Green의 점수는 다른 요인의 요인 점수와 정확하게 연관되도록 계산되므로 상관 관계 보존 이라고 합니다. 요인 점수 간의 상관 관계는 솔루션의 요인 간 상관 관계와 같습니다 (예를 들어 직교 솔루션의 경우 점수가 완전히 상관되지 않음). 그러나 점수는 다소 편향되어 있으며 그 유효성은 적당하지 않을 수 있습니다.

이 표도 확인하십시오.

[SPSS 사용자를위한 참고 사항 : PCA ( "주성분"추출 방법)를 수행하지만 "회귀"방법 이외의 요청 계수 점수를 사용하는 경우 프로그램은 요청을 무시하고 대신 "회귀"점수를 계산합니다 (정확한 구성 요소 점수).]

참고 문헌

Grice, James W. 계산 및 평가 요인 점수 // Psychological Methods 2001, Vol. 6, No. 4, 430-450.
DiStefano, Christine et al. 요인 점수 이해 및 사용 // 실제 평가, 연구 및 평가, Vol 14, No 20
Ten Berge, Jos MFet al. 상관-보존 인자 점수 예측 방법에 대한 몇몇 새로운 결과 // 선형 대수와 그 응용 289 (1999) 311-318.
Mulaik, Stanley A. 요인 분석의 기초, 2 판, 2009
Harman, Harry H. Modern Factor Analysis, 3 판, 1976
뉴 데커, 하인즈 요인 점수의 최상의 아핀 바이어스되지 않은 공분산 보존 예측에서 // SORT 28 (1) 2004 년 1 월 -6 월, 27-36

$^1$ $F=b_1X_1+b_2X_2$ $s_1$ $s_2$ $F$

$s_1=b_1r_{11}+b_2r_{12}$

$s_2=b_1r_{12}+b_2r_{22}$

$r$ $X$ $\bf s=Rb$ $F$ $b$ $r$ $s$

$^2$

여기에 이미지 설명을 입력하십시오

— ttnphns
소스

좋은 대답, upvoted! 통계에 대한 일반적인 지식과 특히 요인 분석에 깊은 인상을 받았다고 말하고 싶었습니다. LinkedIn 및 기타 소셜 네트워크에서 귀하와 연락하게되어 기쁩니다. 그건 그렇고, 참고 : 프로필에서 회사 사이트에 대한 링크가 손상되었습니다.

— Aleksandr Blekh

X

$\bf X$

F A

$\bf F \bf A$

F

$\bf F$

R^{- 1} A

$\bf R^{-1} \bf A$

(I + A^{⊤} U^{- 2} A)^{- 1} A^{⊤} U^{- 2}

$(\bf I + \bf A^\top \bf U^{-2} \bf A)^{-1} \bf A^\top \bf U^{-2}$

I

$\bf I$

@amoeba, 첫 의견과 관련하여 답변에 약간의 정보를 추가했습니다. 두 번째 의견에 대해-죄송합니다. 나는 책을 읽지 않으면 대답 할 수 없습니다. 답을 직접 찾으면 청중에게 설명해주십시오. :-)

— ttnphns

놀라운 업데이트 @ttnphns, 훌륭한 일. 이 스레드가 13k 번 조회 된 것으로 나타났습니다. 인기있는 Google 검색에서 순위가 높아야합니다.

— amoeba 말한다 Reinstate Monica

-2

기상학에서 PCA를 수행하기 위해 상관 계수는 Pearson 상관 계수 (변수가 다른 단위 인 경우 데이터를 표준화 할 수 없으므로 데이터 간의 크기 / 크기 차이로 인한 불일치없이 직접 비교할 수 있으므로 변수가 다른 단위 인 경우)를 사용하여 얻습니다. 상관 계수는 각 데이터 세트와 각 데이터 세트 사이의 평균 주위의 분산 정도를 비교할 수 있습니다. 그렇지 않으면 동일한 단위를 사용하여 모든 데이터를 측정하면 공분산 법을 사용할 수 있습니다 SPSS를 사용하면 쉽게 할 수 있습니다.

— 익타
소스

대답은 질문과 어떤 관련이 있습니까 (예 : 구성 요소 / 인자 점수의 계산)?

— ttnphns

\underset{n \times p}{Y} = {\underset{p \times p}{E}}^{T} \underset{p \times n}{Z}

$\underset{n\times p}{\bf{Y}} = \underset{p\times p}{\bf{E}}^T \underset{p\times n}{\bf{Z}}$