요인 점수를 계산하는 방법 및 PCA 또는 요인 분석에서 "점수 계수"매트릭스는 무엇입니까?


20

내 이해에 따르면, 상관 관계에 기반한 PCA에서는 변수와 요인 사이의 상관 관계에 불과한 요인 (이 경우 주요 구성 요소) 로딩을 얻습니다. 이제 SPSS에서 요인 점수 를 생성해야 할 때 각 요인에 대한 각 응답자의 요인 점수를 직접 얻을 수 있습니다. 또한 SPSS에서 생성 한 " 구성 요소 점수 계수 행렬 "에 표준화 된 원래 변수를 곱하면 SPSS에서 얻은 것과 동일한 요인 점수를 얻습니다.

"요소 점수 계수 행렬"또는 "요소 점수 계수 행렬"(요소 또는 요소 점수를 계산할 수있는)이 계산되는 방식을 이해하도록 도와 줄 수 있습니까? 이 행렬에서 다른 계산 요소 점수 방법은 어떻게 다릅니 까?



@amoeba, PCA를 수행하는 경우 "인자 점수"라는 단어는 "구성 요소 점수"를 의미합니다. 위의 링크 된 답변의 맨 아래를 참조하십시오-PCA 모델 내에서 FA에서 요인 점수를 계산하는 데 가장 자주 사용되는 공식은 정확한 (표준화 된) 구성 요소 점수를 생성합니다.
ttnphns 2014

2
SPSS는 계수 의 행렬을 표시 하고 원래 변수 의 데이터 세트에 추가하여 점수를 새 변수로 저장합니다 (표준화 된) . OP-나는 표준화 한 다음 로 다중화 했다고 생각 합니다. 그리고 짜잔, SPSS가 데이터 세트에 추가 한 것입니다! OP의 질문은 와우! " 는 어떻게 계산 되었습니까?" X X X B BBXXXB
ttnphns 2014

@ttnphs 당신은 내가 의미하는 바를 정확하게 이해합니다. 그러나 내 문제는 XB를 사용하여 각 관측치의 요인 socre을 예측하는 경우 B가 factor loading이어야하지만 SPSS에서는 "rotated factor loading"이 아닌 "component score coefficient matrix"라고 가정합니다. "rotated factor loading"과 "component score coefficient matrix"의 관계 또는 차이점을 이해하고 싶었습니다.
Kartikeya Pandey

그래서 링크에서 이해했을 때, A가 회전 계수 로딩이라면 (Inverse (A)) '는 "성분 점수 계수 매트릭스"이며 공식 A⋅diag를 사용하여 계산할 수도 있습니다. 역 ((고유 값))
Kartikeya Pandey

답변:


25

요인 / 성분 점수 계산 방법

일련의 의견 후 나는 마침내 답변을 발표하기로 결정했다 (의견 등을 기반으로). PCA의 구성 요소 점수 및 요소 분석의 요소 점수를 계산합니다.

요소 / 부품 점수가 주어진다 F = X B , X는 (분석 변수 중심 PCA / 요인 분석은 공분산에 기초하여 또는 경우 Z-표준화 가 상관 관계를 기반으로 한 경우는). B계수 / 성분 점수 계수 (또는 가중치) 행렬 입니다. 이 가중치는 어떻게 추정 할 수 있습니까?F^=XBXB

표기법

-인자였다 어느 변수 (아이템) 또는 상관 공분산의 행렬 / PCA 분석.Rp x p

-요소 / 성분 행렬 로딩 . 추출 후의 하중 (종종 A 라고도 함)은 잠복이 직교 또는 실제로 존재하거나 회전, 직교 또는 사선으로 된 적재 일 수 있습니다. 회전이비스듬한경우패턴로딩이어야합니다.Pp x mA

-자신 (부가금) 경사 회전 후의 인자 / 요소 간의 상관 관계 행렬. 회전 또는 직교 회전이 수행되지 않은 경우 이것은동일행렬입니다.Cm x m

-재생 상관 / 공분산 행렬의 감소는=PCP'(=PP'직교 솔루션)은, 그것의 대각선 communalities를 포함한다.R^p x p=기음'='

-uniquenesses의 대각 행렬 (고유성 communality + = 대각 원소 R ). 수식에서 가독성을 높이기 위해위첨자 ( U 2 )대신 아래 첨자로 "2"를 사용하고있습니다.2p x p아르 자형2

-재생 상관 / 전체 공분산 행렬 = R + U 2 .아르 자형p x p=아르 자형^+2

일부 행렬 M M + -의사 역수; 만약 M이 전체 랭크 인 M + = ( M ' M ) - 1 M은 ' .++=(')1'

일부 정사각형 대칭 행렬 M의 경우 , p o w e r 로의증가는 고유분해 H K H ' = M 에 해당하며, 고유 값을 거듭 제곱 한 다음 다시 구성합니다. M p o w e r = H K p o w e r H ' .영형이자형아르 자형영형이자형아르 자형H케이H'=영형이자형아르 자형=H케이영형이자형아르 자형H'

계수 / 구성 요소 점수 계산의 대략적인 방법

Cattell이라고도하는이 인기있는 / 전통적인 접근 방식은 단순히 동일한 요소에 의해로드 된 항목의 값을 평균화 (또는 요약)하는 것입니다. 수학적으로, 이는 가중치 설정 금액 점수 계산에 F = X B . 이 접근법에는 세 가지 주요 버전이 있습니다. 1) 로딩을 그대로 사용하십시오. 2) 그것들을 이분법 화하십시오 (1 =로드, 0 =로드되지 않음); 3) 하중은 일부 임계 값보다 작지만 무부하 하중은 그대로 사용하십시오.=에프^=엑스

품목이 동일한 척도 단위에있을 때이 방법을 사용하면 값 가 그대로 사용됩니다. 팩토링의 논리를 어 기지 않으면 서 X 가 팩터링에 들어갔을 때 X 를 사용하는 것이 좋습니다 .엑스엑스

필자의 견해로 는 계수 / 구성 요소 점수를 계산하는 대략적인 방법의 주요 단점은 로드 된 항목 간의 상관 관계를 설명하지 않는다는 것입니다. 한 팩터로로드 된 항목이 밀접하게 연관되어 있고 하나가 더 강하게로드 된 경우 다른 항목은 합리적으로 젊은 복제본으로 간주되어 무게가 줄어들 수 있습니다. 세련된 방법은 그렇게하지만 거친 방법은 할 수 없습니다.

행렬 반전이 필요하지 않기 때문에 거친 점수는 계산하기 쉽습니다. 조잡한 방법의 장점 (컴퓨터 가용성에도 불구하고 여전히 널리 사용되는 이유를 설명 함)은 샘플링이 이상적이지 않을 때 (대표 성과 크기의 의미에서) 또는 분석이 잘 선택되지 않았습니다. 한 논문을 인용하기 위해, "합산 점수 방법은 신뢰성 또는 타당성의 증거가 거의 또는 전혀없이, 원본 데이터를 수집하는 데 사용 된 스케일이 테스트되지 않았고 탐색적일 때 가장 바람직 할 수 있습니다". 또한 , 요인 분석 모델이 요구하기 때문에 "요인"을 반드시 일 변량 잠재 본질로 이해하지 않아도됩니다 ( 참조 , 참조).). 예를 들어 요인을 현상 모음으로 개념화하면 항목 값을 합산하는 것이 합리적입니다.

계산 된 요소 / 구성 요소 점수 계산 방법

이러한 방법은 요인 분석 패키지가하는 일입니다. 그들은 다양한 방법으로 를 추정 합니다. 하중 A 또는 P 는 요인 / 성분으로 변수를 예측하기위한 선형 조합 의 계수 이지만 B 는 변수에서 요인 / 성분 점수를 계산하는 계수입니다.에이

을 통해 계산 된 점수 스케일링된다 : 그들은 차이가 동일하거나 또는 가까운 1 (표준화 또는 근처 표준화)가 -없는 진정한 계수 편차를 (제곱 구조 하중의 합과 같게되는 각주 3 참조 여기를 ). 따라서 실제 요인의 분산으로 요인 점수를 제공해야하는 경우 해당 분산의 제곱근에 점수 (st.dev.1로 표준화 된 점수)를 곱하십시오.

X의 새로운 관측치에 대한 점수를 계산할 수 있도록 수행 된 분석에서 를 보존 할 수 있습니다 . 또한, B 는 계수가 요인 분석에 의해 개발되거나 검증 될 때 설문의 척도를 구성하는 아이템을 가중시키는 데 사용될 수있다. B의 (제곱 된) 계수 는 항목에 대한 요인의 기여 로 해석 될 수 있습니다 . 회귀 계수가 표준화 된 것처럼 계수를 표준화 할 수 있음 β = b σ i t e m엑스 (여기서σfactor=1)은 분산이 다른 항목의 기여도를 비교합니다.β=σ나는이자형σ에프에이기음영형아르 자형σ에프에이기음영형아르 자형=1

점수 계수 행렬에서 점수를 계산하는 것을 포함하여 PCA 및 FA에서 수행 된 계산을 보여주는 참조하십시오 .

PCA 설정에서 하중 (수직 좌표)와 점수 계수 b (비대칭 좌표)에 대한 기하학적 설명이 여기 의 첫 두 그림에 나와 있습니다 .에이

이제 세련된 방법으로 넘어갑니다.

방법

PCA에서 계산

구성 요소 로딩이 추출되었지만 회전되지 않은 경우, 이며, 여기서 L 은 고유 값으로 구성된 대각 행렬입니다 . 이 공식은 A의 각 열을 성분의 분산 인 각 고유 값 으로 간단히 나눕니다 .=에이1m에이

마찬가지로, 입니다. 이 공식은 회전, 직교 (예 : varimax) 또는 비스듬한 구성 요소 (적재)에도 적용됩니다.=(+)'

PCA에 적용되는 경우 요인 분석에 사용 된 일부 방법 (아래 참조)은 동일한 결과를 반환합니다.

계산 된 구성 요소 점수는 분산 1을 가지며 실제 표준화 된 구성 요소 값입니다 .

통계 데이터 분석에서 주요 구성 요소 계수 행렬 라는 것이 무엇이며 회전 로딩 행렬이 아닌 완전 로딩으로 계산되는 경우 기계 학습 문헌에서 종종 (PCA 기반) 미백 행렬로 표시되며 표준화 된 주요 구성 요소는 다음과 같습니다. "미백 된"데이터로 인식됩니다.p x p

공통 요인 분석에서 계산

구성 요소 점수와 달리 요인 점수절대 정확하지 않습니다 . 그것들은 요인 들의 알려지지 않은 실제 값 에 대한 근사치 일뿐 입니다. 이는 구성 요소와 달리 요인이 매니페스트와 분리 된 외부 변수이고 분포에 알려지지 않은 자체 변수를 가지기 때문에 사례 수준에서 커뮤니티 또는 고유성 값을 알 수 없기 때문입니다. 그 요인 점수 불확실성 의 원인은 다음과 같습니다 . 불확정성 문제는 요인 솔루션의 품질과 논리적으로 독립적입니다. 요인이 얼마나 많은지 (인구에서 데이터를 생성하는 잠재성에 해당) 요인의 응답자 점수가 얼마나 많은지 (정확한 추정치) 추출 된 요인).에프

요인 점수는 근사치이므로이를 계산하는 다른 방법이 존재하고 경쟁합니다.

요인 점수를 추정하는 회귀 또는 Thurstone 또는 Thompson의 방법 로 주어집니다 . 여기서 S = P C 는 구조 하중의 행렬입니다 (직교 계수 솔루션의 경우 A = P = S ). 회귀 방법의 기초는 각주 1에 있습니다.=아르 자형1기음=아르 자형1에스에스=기음에이==에스1

노트. 에 대한이 공식은 PCA에서도 사용할 수 있습니다. PCA에서는 이전 섹션에서 인용 한 공식과 동일한 결과를 제공합니다.

FA (PCA 아님)에서 회귀 적으로 계산 된 요인 점수는 "표준화되지 않은"것으로 나타납니다. 1은 아니지만 S S r e g r 과 동일한 분산을 갖습니다. 변수로이 점수를 회귀 분석합니다. 이 값은 변수에 의한 요인의 결정 정도 (알 수없는 실제 값)-실제 요인에 대한 예측의 R- 제곱 및 회귀 방법이 최대화하는-계산의 "유효성"으로 해석 될 수 있습니다. 점수. 그림2는 형상을 보여줍니다. (SS r e g r에스에스아르 자형이자형아르 자형(1)2 은 모든 정제 된 방법에 대한 점수 분산과 같지만, 회귀 분석법의 경우에만 수량이 참 f의 결정 비율과 동일합니다. f에 의한 값 점수.)에스에스아르 자형이자형아르 자형(1)

회귀 방법 의 변형 으로 , 공식에서 R 대신 를 사용할 수 있습니다 . 좋은 요소 분석에서 RR * 는 매우 유사하다는 근거가 보장됩니다 . 그러나, 그렇지 않은 경우, 특히 요인 수가 실제 모집단 수보다 적은 경우이 방법은 점수에서 강한 편향을 생성합니다. 그리고이 "재생 된 R 회귀"방법을 PCA와 함께 사용해서는 안됩니다.아르 자형아르 자형아르 자형아르 자형m

PCA의 방법 은 Horst (Mulaik) 또는 이상적인 (ized) 가변 접근 (Harman)이라고도합니다. 이것으로 회귀 방법 R 에 대신 R 의 화학식이다. 공식이 B = ( P + ) ' 로 감소한다는 것을 쉽게 알 수 있습니다 (그래서 우리는 실제로 C 를 알 필요가 없습니다 ). 요소 점수는 마치 요소 점수 인 것처럼 계산됩니다.아르 자형^아르 자형=(+)'기음

"변수 이상화"[라벨 인자 또는 성분에 따라 이후 사실에서 비롯 모델 변수의 예측 된 부분이 X = F P는 ' 그것은 다음 F = ( P + ) ' X가 있지만,이 대신 X를 미지위한 (이상적인) X는 추정하는 F를 점수로 F ; 그러므로 우리는 X를 "이상화"한다 .]엑스^=에프'에프=(+)'엑스^엑스엑스^에프에프^엑스

사용 된 하중이 PCA의 하중이 아니라 요인 분석이기 때문에이 방법은 요인 점수에 대한 PCA 구성 요소 점수를 전달하지 않습니다. 점수에 대한 계산 방식 만 PCA의 방식과 동일합니다.

바틀렛의 방법 . 여기서, . 이 방법은 모든 응답자에 대해 고유 ( "오류") 요인에 대한 편차 를 최소화하려고합니다 . 공통 요소 점수의 차이는 같지 않으며 1을 초과 할 수 있습니다.'=('21)1'21p

Anderson-Rubin 방법 은 이전의 수정으로 개발되었습니다. . 점수의 편차는 정확히 1입니다. 그러나이 방법은 직교 인수 솔루션에만 해당됩니다 (경사 솔루션의 경우 여전히 직교 점수를 산출 함).'=('21아르 자형21)1/2'21

맥도날드-앤더슨-루빈 방법 . McDonald는 Anderson-Rubin을 경사 요인 솔루션까지 확장했습니다. 그래서 이것은 더 일반적입니다. 직교 요소를 사용하면 실제로 Anderson-Rubin으로 줄어 듭니다. 일부 패키지는 "Anderson-Rubin"이라고 부르는 동안 McDonald의 방법을 사용할 수 있습니다. 공식은 : , GH가 얻어진다 SVD ( R 1 / 2 U - 1 2 P C 1 / 2 )=아르 자형1/2H'기음1/2H . (물론 G의 첫 번째열만사용하십시오.)svd(아르 자형1/221기음1/2)=ΔH'm

그린의 방법 . 맥도날드 - 앤더슨 루빈과 같은 수식을 사용하지만, H는 다음과 같이 계산된다 : SVD ( R - 1 / 2 P C 3 / 2 ) = G Δ H ' . ( 물론 G의 첫 번째 열만 사용하십시오 .) Green의 방법은 유사성 (또는 고유성) 정보를 사용하지 않습니다. 변수의 실제 커뮤니티가 점점 더 평등 해짐에 따라 McDonald-Anderson-Rubin 방법에 접근하고 수렴합니다. 또한 PCA의 로딩에 적용되는 경우 Green은 기본 PCA의 방법과 같은 구성 요소 점수를 반환합니다.Hsvd(아르 자형1/2기음/2)=ΔH'm

Krijnen et al . 이 방법은 하나의 공식으로 이전 두 가지를 모두 수용하는 일반화입니다. 아마도 새로운 기능이나 중요한 새로운 기능을 추가하지 않을 것이므로 고려하지 않습니다.

정제 된 방법 사이의 비교 .

  • 회귀 방법은 요인 점수와 해당 요인의 알 수없는 실제 값 사이의 상관 관계를 최대화 하지만 (즉, 통계적 유효성을 최대화 함 ) 점수는 다소 편향되어 있으며 요인간에 다소 잘못 연관됩니다 (예 : 솔루션의 요인이 직교 인 경우에도 상관 관계가 있음). 이들은 최소 제곱 추정치입니다.

  • PCA의 방법은 또한 최소 제곱이지만 통계적 유효성이 떨어집니다. 계산 속도가 더 빠릅니다. 오늘날 컴퓨터 때문에 요인 분석에 자주 사용되지 않습니다. ( PCA 에서이 방법은 기본적이고 최적입니다.)

  • Bartlett의 점수는 실제 요인 값의 편향 추정치입니다. 점수는 다른 요인의 실제 알 수없는 값과 정확하게 상관 관계를 갖도록 계산됩니다 (예 : 직교 솔루션에서는 점수와 상관 관계가 없음). 그러나 다른 요인에 대해 계산 된 요인 점수 와 여전히 부정확 한 상관 관계가있을 수 있습니다 . 이는 최대 가능성 ( 가정 의 다변량 정규성 ) 추정치입니다.엑스

  • Anderson-Rubin / McDonald-Anderson-RubinGreen의 점수는 다른 요인의 요인 점수와 정확하게 연관되도록 계산되므로 상관 관계 보존 이라고 합니다. 요인 점수 간의 상관 관계는 솔루션의 요인 간 상관 관계와 같습니다 (예를 들어 직교 솔루션의 경우 점수가 완전히 상관되지 않음). 그러나 점수는 다소 편향되어 있으며 그 유효성은 적당하지 않을 수 있습니다.

이 표도 확인하십시오.

여기에 이미지 설명을 입력하십시오

[SPSS 사용자를위한 참고 사항 : PCA ( "주성분"추출 방법)를 수행하지만 "회귀"방법 이외의 요청 계수 점수를 사용하는 경우 프로그램은 요청을 무시하고 대신 "회귀"점수를 계산합니다 (정확한 구성 요소 점수).]

참고 문헌

  1. Grice, James W. 계산 및 평가 요인 점수 // Psychological Methods 2001, Vol. 6, No. 4, 430-450.

  2. DiStefano, Christine et al. 요인 점수 이해 및 사용 // 실제 평가, 연구 및 평가, Vol 14, No 20

  3. Ten Berge, Jos MFet al. 상관-보존 인자 점수 예측 방법에 대한 몇몇 새로운 결과 // 선형 대수와 그 응용 289 (1999) 311-318.

  4. Mulaik, Stanley A. 요인 분석의 기초, 2 판, 2009

  5. Harman, Harry H. Modern Factor Analysis, 3 판, 1976

  6. 뉴 데커, 하인즈 요인 점수의 최상의 아핀 바이어스되지 않은 공분산 보존 예측에서 // SORT 28 (1) 2004 년 1 월 -6 월, 27-36


1에프=1엑스1+2엑스2에스1에스2에프

에스1=1아르 자형11+2아르 자형12

에스2=1아르 자형12+2아르 자형22

아르 자형엑스에스=아르 자형에프아르 자형에스


2

여기에 이미지 설명을 입력하십시오


3
좋은 대답, upvoted! 통계에 대한 일반적인 지식과 특히 요인 분석에 깊은 인상을 받았다고 말하고 싶었습니다. LinkedIn 및 기타 소셜 네트워크에서 귀하와 연락하게되어 기쁩니다. 그건 그렇고, 참고 : 프로필에서 회사 사이트에 대한 링크가 손상되었습니다.
Aleksandr Blekh

엑스에프에이에프아르 자형1에이

(나는+에이2에이)1에이2나는

@amoeba, 첫 의견과 관련하여 답변에 약간의 정보를 추가했습니다. 두 번째 의견에 대해-죄송합니다. 나는 책을 읽지 않으면 대답 할 수 없습니다. 답을 직접 찾으면 청중에게 설명해주십시오. :-)
ttnphns

1
놀라운 업데이트 @ttnphns, 훌륭한 일. 이 스레드가 13k 번 조회 된 것으로 나타났습니다. 인기있는 Google 검색에서 순위가 ​​높아야합니다.
amoeba 말한다 Reinstate Monica

-2

기상학에서 PCA를 수행하기 위해 상관 계수는 Pearson 상관 계수 (변수가 다른 단위 인 경우 데이터를 표준화 할 수 없으므로 데이터 간의 크기 / 크기 차이로 인한 불일치없이 직접 비교할 수 있으므로 변수가 다른 단위 인 경우)를 사용하여 얻습니다. 상관 계수는 각 데이터 세트와 각 데이터 세트 사이의 평균 주위의 분산 정도를 비교할 수 있습니다. 그렇지 않으면 동일한 단위를 사용하여 모든 데이터를 측정하면 공분산 법을 사용할 수 있습니다 SPSS를 사용하면 쉽게 할 수 있습니다.


1
대답은 질문과 어떤 관련이 있습니까 (예 : 구성 요소 / 인자 점수의 계산)?
ttnphns

와이×=이자형××
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.