EFA 대신 PCA를 사용해야 할 이유가 있습니까? 또한 PCA가 요인 분석을 대신 할 수 있습니까?


73

일부 분야에서는 PCA (주성분 분석)가 정당화없이 체계적으로 사용되며 PCA와 EFA (탐사 계수 분석)는 동의어로 간주됩니다.

따라서 최근 PCA를 사용하여 규모 검증 연구 결과 (각 7 개 항목의 3 가지 요소를 구성하는 것으로 추정되는 7 점 리 커트 척도의 21 개 항목)를 분석했으며, 검토자가 EFA 대신 PCA를 선택한 이유를 묻습니다. 두 기술의 차이점에 대해 읽었으며 여기에서 대부분의 답변에서 EFA가 PCA에 대해 선호되는 것 같습니다.

PCA가 더 나은 선택 인 이유가 있습니까? 그것이 어떤 이점을 제공 할 수 있으며 내 경우에 현명한 선택 일 수있는 이유는 무엇입니까?


1
좋은 질문입니다. 나는 ttnphns의 답변에 동의하지 않는 경향이 있으며 오늘 나중에 다른 견해를 제시하려고 노력할 것입니다.
amoeba

5
@amoeba 나는 당신을 위해 미리 응원합니다. PCA는 (때로는 매우 도움이되는) 변형 기술 일뿐입니다. 그것을 악마 화하거나 허위이거나 부적절한 의도로 귀속시킬 필요는 없습니다. 대수를 추출 할 수도 있습니다.
Nick Cox

4
ttnphns의 대답이 PCA를 악마 화하는 것으로 보이지는 않습니다. 나에게 그는 PCA가 데이터를 생성하는 잠재 변수의 가정에 근거한 것이 아니라고 주장하는 것처럼 보이므로 그렇게하려는 경우 FA가 더 나은 선택입니다.
gung

1
FWIW, 나는 ttphns의 답변에 대해 구체적으로 언급하지 않았지만 의견과 비판에 대해 PCA가 의도하지 않았거나 적합하지 않은 것을 수행하지 않는다는 비난을 종종 겪습니다.
Nick Cox

3
@NeilG : PCA는 없습니다 그것은 잡음 항을 포함하지 않는 등 그와 관련된 될 가능성이 없기 때문에, A [확률] 생식 모델. 그래도 확률 론적 일반화 (PPCA)가 있으며 PCA와 매우 밀접한 관련이 있습니다. 여기에서 내 대답을보십시오.
amoeba

답변:


95

면책 조항 : @ttnphns는 PCA와 FA에 대해 매우 잘 알고 있으며, 나는 그의 의견을 존중하며 주제에 대한 많은 훌륭한 답변에서 많은 것을 배웠습니다. 그러나 나는 그의 대답뿐만 아니라이 주제에 대한 다른 (수 많은) 게시물뿐만 아니라 CV에 대한 의견에 동의하지 않는 경향이 있습니다. 오히려 적용 가능성이 제한적이라고 생각합니다.


PCA와 FA의 차이가 과대 평가 된 것 같습니다.

두 방법 모두 주어진 공분산 (또는 상관) 행렬의 낮은 순위 근사를 제공하려고 시도합니다. "낮은 순위"는 제한된 (잠재적) 잠재 요소 또는 주요 구성 요소 만 사용됨을 의미합니다. 데이터의 공분산 행렬이 인 경우 모델은 다음과 같습니다.Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

여기에서 는 열을 가진 행렬입니다 (여기서 는 일반적으로 작은 수, 으로 선택됨 ). 주요 구성 요소 또는 요인을 나타냅니다 . 은 항등 행렬, 는 대각선입니다 매트릭스. 각 방법은 왼쪽과 오른쪽의 차이를 최소화하는 (및 나머지) 를 찾는 것으로 공식화 될 수 있습니다 . K K K <는 N k는 I는 Ψ W를Wkkk<nkIΨW

PPCA는 확률 적 PCA의 약자 이며, 그것이 무엇인지 모른다면 지금은 그다지 중요하지 않습니다. PCA와 FA 사이에 잘 ​​맞고 중간 모델이 복잡하기 때문에 언급하고 싶었습니다. 또한 PCA와 FA 사이의 큰 차이를 원근법으로 고려합니다. 비록 확률 론적 모델이지만 (실제로 FA와 같음) 실제로 PCA와 거의 같은 것으로 판명되었습니다 ( 는 동일한 부분 공간에 걸쳐 있음).W

가장 중요한 것은 모델이 의 대각선을 처리하는 방법 만 다르다는 점에 유의하십시오 . 차원 증가함에 따라, 대각선에 요소가 있고 대각선에 요소 가 있기 때문에 대각선이 점점 덜 중요해 집니다. 결과적으로, 큰 의 경우, 일반적으로 PCA와 FA 사이의 차이는 크지 않으며, 거의 관찰되지 않는 관측이다. 작은 경우 실제로는 많이 다를 수 있습니다. , N , N , N ( N - 1 ) / (2) = O ( N 2 ) N , NCnnn(n1)/2=O(n2)nn

이제 일부 분야의 사람들이 PCA를 선호하는 이유에 대한 주요 질문에 대답하십시오. 나는 그것이 FA보다 수학적으로 훨씬 쉽다는 사실로 귀결된다고 생각합니다 (위의 공식에서 명확하지 않으므로 여기에서 나를 믿어야합니다).

  1. PCA와 PPCA는 약간 다르지만 분석 솔루션은 있지만 FA는 그렇지 않습니다. 따라서 FA는 수치 적으로 적합해야하며,이를 수행하는 다양한 알고리즘이 있으며, 아마도 다른 해답을 제공하고 다른 가정 하에서 작동하는 등이 있습니다. 경우에 따라 일부 알고리즘이 중단 될 수 있습니다 (예 : "heywood 경우"참조). PCA의 경우 고유 분해를 수행하고 완료됩니다. FA는 훨씬 더 지저분합니다.

    기술적으로 PCA는 단순히 변수를 회전시키기 때문에 @NickCox가 위에서 언급 한 것처럼 변수를 단순한 변환이라고 할 수 있습니다.

  2. PCA 솔루션은 의존하지 않습니다 . 처음 3 개의 PC ( )를 찾을 수 있으며 처음 2 개의 PC 는 처음 설정 한 경우와 동일합니다 . FA의 경우에는 사실이 아닙니다. 에 대한 솔루션이 대한 솔루션 내에 반드시 포함되어 있지는 않습니다 . 이것은 반 직관적이고 혼란 스럽다.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

물론 FA는 PCA보다 더 유연한 모델이며 (결국 더 많은 매개 변수를 가짐) 종종 더 유용 할 수 있습니다. 나는 그것에 대해 논쟁하지 않습니다. 내가 하고 ,에 대해 주장하는 것은 그들이 개념적으로 PCA는 "데이터를 설명하는"와 FA는 "잠재 변수를 찾는"에 대한 것에 대해있는 매우 다른 주장이다. 나는 이것이 거의 [거의] 사실 인 것을 보지 못한다.

위에서 언급 한 특정 답변과 링크 된 답변에 대해 언급하려면 :

  • "PCA에서 추출 / 보존 할 차원의 수는 기본적으로 주관적이지만 EFA에서는 그 수가 고정되어 있으며 일반적으로 몇 가지 솔루션을 확인해야합니다." - 솔루션 의 선택은 여전히 ​​주관적입니다. 여기에 개념적 차이가 있습니다. 두 경우 모두, 모형 적합과 모형 복잡성 간의 균형을 최적화하기 위해 는 (주관적으로 또는 객관적으로) 선택됩니다.k

  • "FA는 페어 와이즈 상관 (공분산)을 설명 할 수 있습니다. PCA는 일반적으로이를 수행 할 수 없습니다." 둘 다 커질 수록 상관 관계를 더 잘 설명 할 수는 없습니다 .k

  • PCA와 FA를 사용하는 여러 분야의 관행 으로 인해 때때로 혼동이 발생합니다 (@ttnphns의 답변에는 해당되지 않습니다!) . 예를 들어, 해석 성을 개선하기 위해 FA에서 요인을 회전시키는 것이 일반적입니다. 이것은 PCA 후에는 거의 이루어지지 않지만 원칙적으로 그것을 막는 것은 없습니다. 그래서 사람들은 FA가 당신에게 "해석 할 수있는"무언가를 제공하고 PCA는 그렇지 않다고 생각하는 경향이 있지만, 이것은 종종 환상입니다.

마지막으로, 아주 작은 대해 PCA와 FA의 차이가 실제로 클 수 있으며 FA에 찬성하는 주장 중 일부는 작은 을 염두에두고 이루어질 수 있음을 다시 강조하겠습니다 . 극단적 인 예로, 경우 단일 요인이 항상 상관 관계를 완벽하게 설명 할 수 있지만 한 PC가이를 제대로 수행하지 못할 수 있습니다.n n = 2nnn=2


업데이트 1 : 데이터의 생성 모델

내가 말한 내용이 논란의 여지가 있다는 의견의 수에서 알 수 있습니다. 주석 섹션을 더 넘칠 위험이있는 경우, 여기에는 "모델"에 관한 설명이 있습니다 (@ttnphns 및 @gung의 주석 참조). @ttnphns는 위의 근사값을 나타 내기 위해 [공분산 행렬의] "모델"이라는 단어를 사용하는 것을 좋아하지 않습니다 . 그것은 용어의 문제이지만, 그가 "모델"이라고 부르는 것은 데이터의 확률 적 / 생성 모델 입니다 .

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

PCA는 확률 모델이 아니며 이런 방식으로 공식화 할 수 없습니다.

PPCA와 FA의 차이는 노이즈 용어에 있습니다. PPCA는 각 변수에 대해 동일한 노이즈 분산 를 가정하고 FA는 다른 분산 ( "고유성")을 가정합니다. 이 작은 차이는 중요한 결과를 가져옵니다. 두 모델 모두 일반적인 기대 최대화 알고리즘에 적합 할 수 있습니다. FA의 경우 분석 솔루션은 알려져 있지 않지만 PPCA의 경우 EM이 수렴 할 솔루션 ( 및 )을 분석적으로 도출 할 수 있습니다 . 알고 보니, 같은 방향으로하지만, 표준 PCA 하중보다 작은 길이 열이 (I 정확한 공식을 생략). 이런 이유로 PPCA를 "거의"PCA라고 생각합니다.Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW 두 경우 모두 동일한 "주요 부분 공간"에 걸쳐 있습니다.

증거 ( Tiping and Bishop 1999 )는 약간 기술적입니다. 균질 한 잡음 분산이 훨씬 더 간단한 해결책으로 이어지는 이유는 값에 대해 와 동일한 고유 벡터를 가지기 때문입니다 . 그러나 이것은 사실이 아닙니다. .C σ 2 CΨCσ2ICσ2CΨ

예, @gung과 @ttnphns는 FA가 생성 모델을 기반으로하고 PCA가 아니라는 점에서 옳습니다. 그러나 PPCA도 생성 모델을 기반으로하지만 PCA와 "거의"동등하다는 점을 추가하는 것이 중요하다고 생각합니다 . 그런 다음 중요한 차이가 보이지 않습니다.


업데이트 2 : PCA가 최대 분산을 찾는 것으로 잘 알려진 공분산 행렬에 가장 가까운 근사치를 어떻게 제공합니까?

PCA는 2 개의 등가의 제형을 갖는다 : 예를 들어 첫 번째 PC는 (a) 투영의 변화를 최대화하는 것 및 (b) 최소한의 재구성 오차를 제공하는 것. 보다 추상적으로, 분산 최대화와 재구성 오류 최소화 사이의 동등성은 Eckart-Young 정리를 사용하여 볼 수 있습니다 .

경우 데이터 행렬 (열과 행 변수로 관측, 그리고 열이 중심이되는 것으로 가정) 및 SVD 분해는 이어서, 열은 산란 행렬 (또는 관측 수로 나눈 공분산 행렬)의 고유 벡터입니다. 이므로 분산을 최대화하는 축 (예 : 주축)입니다. 그러나 ECKART 영 정리하여, 제 PC는 가장 rank- 제공 근사치에 :XX=USVVC=XX=VS2VkkXXk=UkSkVk(이 표기법은 가장 큰 특이 값 / 벡터 만을 취함을 의미 ) 최소화 합니다.kXXk2

첫 PC는 대한 최고 순위 근사값 뿐만 아니라 공분산 행렬 대해서도 제공합니다 . 실제로, 이며, 마지막 방정식은 의 SVD 분해를 제공합니다 ( 는 직교 하므로) 및 ) 대각선이다. 따라서 Eckert-Young 정리는 대한 최고 순위 근사 가 의해 주어진다는 것을 알려줍니다 . 이것은 다음을 알면 변형 될 수 있습니다.k X C C = XX = V S 2 VC V S 2 k C C k = V k S 2 k V k W = V S C k = V k S 2 k V k = ( V S ) k ( V S ) k = WkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS 는 PCA 로딩이므로

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

결론은 처음에 언급 된

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

업데이트 3 : 때 PCA FA로 표시되는 수치 데모n n

@ttnphns는 차원이 커짐에 따라 PCA 솔루션이 FA 솔루션에 접근한다는 주장을 수치 적으로 보여 주도록 격려했습니다. 여기 간다.

나는 강한 대각선 이외의 상관 관계로 랜덤 상관 행렬 을 생성했습니다 . 그런 다음 차원의 효과를 조사하기 위해 변수가 있는이 행렬의 왼쪽 상단 square block 를 취했습니다 . 각 에 대해 구성 요소 / 인자 수 PCA 및 FA를 수행 했으며 각 에 대해 대각선 외 재구성 오류 (대각선에서 FA 는 로 인해 완벽하게 재구성합니다.n × n C n = 25 , 50 , 200 n k = 1 5 k i j [ C - W W] 2 i j C Ψ n k 1200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨPCA는 그렇지 않지만; 그러나 대각선은 여기에서 무시됩니다). 그런 다음 각 과 에 대해 PC 오프 대각선 오류와 FA 오프 대각선 오류의 비율을 계산했습니다. FA가 최상의 재구성을 제공하기 때문에이 비율은 보다 커야합니다.nk1

PCA 대 FA 비대 각 재구성 오류

오른쪽에서 다른 선은 다른 값에 해당 하며 은 가로 축에 표시됩니다. 이 증가 함에 따라 (모든 ) 비율이 에 가까워짐 에 따라 PCA와 FA는 거의 동일한 하중 인 PCA FA를 산출합니다 . 비교적 작은 , 예를 들어 일 때 , PCA는 [예상 적으로] 더 나쁘게 수행되지만, 작은 대해서는 그 차이가 크지 않으며 , 대해서도 그 비율은 미만 이다.n n k 1 n n = 25 k k = 5 1.2knnk1nn=25kk=51.2

계수의 개수 가 변수의 개수 과 비교 될 때 비율은 커질 수 있습니다 . 위의 및 제공된 예 에서 FA는 재구성 오류를 달성 하는 반면 PCA는 그렇지 않습니다. 즉 비율은 무한대입니다. 그러나 원래의 질문으로 돌아 가면 및 일 때 PCA는 의 비 대각선 부분을 설명 할 때 FA에 약간만 손실됩니다 .nknK = 1 0 N = 21 K = 3 Cn=2k=10n=21k=3C

실제 데이터 세트 ( 와인 데이터 세트)에 적용된 PCA 및 FA의 예시를 보려면 여기에서 내 답변을 참조하십시오.n=13


2
여기서 주제에 대한 (그렇지 않은 우수한) 답변의 대부분은 명시적인 수학적 비교를하지 않기 때문에 기술 간의 수학적 차이 에 대해 질문하려고했습니다 . 이 대답은 정확히 내가 무엇을 찾고 있었다.
shadowtalker

2
이것은 신선한 관점에서 매우 가치 있고 펼쳐진 계정입니다. PPCA를 중간 기술로 사용하는 것이 중요합니다. 이는 귀하의 의견이 커지는 곳입니다. PPCA에 대해 더 많은 내용을 남기시겠습니까? - 는 무엇이며 어떻게 추정되고 (간단하게) 와 다른가? PPC (요인과 달리)가 변수의 부분 공간을 채우고 PPC가 의존하지 않도록 합니다. Ψ kσ2Ψk
ttnphns

3
나는 여기서 ttnphns / FA가 잠재 변수를 기반으로한다는 차이점과 PCA는 단지 데이터의 변환이라는 것에 동의합니다. 그러나 이것은 매우 잘 추론되고 유용한 반대 입장입니다. 이 스레드의 품질에 기여합니다. +1
gung

5
@amoeba 귀하의 답변이 훌륭합니다. 너무 분명하고 만족 스럽습니다. 비전을 공유해 주셔서 감사합니다.
Subhash C. Davar

2
@ user795305 죄송합니다. 답장을 잊었습니다. 업데이트 1로 작성된 FA 모델이 정확합니다. 잠재 는 실제로 오고 과 독립적 이어야 합니다. 와 대한 ML 솔루션 은 실제로 업데이트 2에서 작성한 의 표준을 최소화하지 않습니다 . 그것은 조잡하고 틀렸다. 고마워 야 겠어 그러나 ML 솔루션이 와 같다고해도 괜찮습니다 . 여기서 손실 함수는 차이의 표준이 아니라 더 복잡한 표현입니다 ( 가 주어 졌을 가능성 ). N ( 0 , I ) ϵ W Ψ C W W Ψ C W W + Ψ C W W + ΨzN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
amoeba

27

당신이 말했듯이, 당신은 관련 답변에 익숙 합니다 ; 볼 : So, as long as "Factor analysis..."+ 마지막 단락의 몇; 하단 목록은 여기에 있습니다 . 요컨대, PCA는 대부분 데이터 축소 기술이지만 FA는 잠복 특성 모델링 기술입니다. 때때로 그들은 비슷한 결과를 낳습니다. 그러나 귀하의 경우-실제 실체처럼 잠복 특성을 구성 / 확인하는 느낌이 들기 때문에 FA를 사용하는 것이 더 정직하고 결과가 수렴되기를 희망하는 PCA를 선호하지 않아야합니다. 반면에 데이터를 요약 / 단순화하려는 경우 (예 : 후속 분석) PCA는 데이터에 대한 강력한 모델 (무관 할 수 있음)을 부과하지 않기 때문에 PCA를 선호합니다.

다른 방법을 유지하기 위해, PCA는 당신에게 치수를 제공 할 수 있습니다 일부에 해당하는 주관적 의미 EFA는 동안, 당신이 원하는 경우, 구조를 포즈 사람들도 있다는 사실 생성 비밀 기능 데이터를하고, 그 기능을 찾을 것을 목표로하고있다. FA에서는 차원 (요인)의 해석이 보류 중입니다. 잠재 변수에 의미를 첨부 할 수 있는지 여부, "존재"(FA는 필수), 그렇지 않으면 모델에서 삭제하거나 더 많은 데이터를 지원해야합니다. 그것. PCA에서 차원의 의미는 선택 사항입니다.

다시 말해 다시 말하면, m 요인 을 추출 할 때 (오류와 분리 된 요인),이 몇 가지 요인은 변수 간의 모든 상관 관계를 설명하여 (거의) 변수가 오류를 통해 상관 관계를 유지할 여지가 없도록합니다. 따라서 "인자"가 상관 된 데이터를 생성 / 바인딩하는 잠복 특성으로 정의되는 한이를 해석 할 수있는 완전한 단서가 있습니다. PCA ( "인자"인 것처럼 추출 성분 )에서 오류 (변수)는 여전히 변수간에 상관 관계가 있습니다. 그래서 당신은 당신이 그런 식으로 해석하기에 충분히 깨끗하고 철저한 것을 추출했다고 주장 할 수 없습니다 .

PCA가 FA를 대체 할 수 있는지에 대한 이론 및 시뮬레이션 실험에 대한 자세한 내용은 현재 토론에서 더 긴 답변 을 읽어보십시오 . 이 스레드에 제공된 @amoeba의 탁월한 답변에도주의하십시오.


Upd :이 질문에 대한 답변에서 @amoeba는 이에 반대하는 PCA와 FA 사이의 중간에 (잘 알려지지 않은) PPCA 기술을 도입했습니다. 이것은 자연스럽게 PCA와 FA가 반대가 아니라 한 줄을 따라가는 논리를 시작했습니다. 그 귀중한 접근 방식은 이론적 지평을 넓 힙니다. 그러나 FA는 몇 가지 요인으로 모든 쌍별 공분산을 재구성 (설명)하지만 PCA는 성공적으로 수행 할 수 없으며 (때로는 수행 할 때-FA를 모방했기 때문에) 중요한 실제 차이점을 숨길 수 있습니다.


답변 주셔서 감사합니다! FA의 결과는 실제로 PCA를 통해 얻은 것과 수렴합니다. 유일한 것은 : 초기 연구의 저자 (광산은 번역 + 검증)는 PCA 분석을 사용했습니다. 이것은 논문에서 PCA 분석을 유지하고 FA 결과가 수렴한다고 설명하는 문장을 추가하기에 충분합니까, 아니면 PCA를 FA로 대체해야합니까? 검토자는 실제로 명시 적으로 요청하지 않고 FA 대신 PCA를 선택한 이유를 정당화하기 만합니다.
Carine

저자가 PCA를 사용했지만 더 엄격하고 정직한 접근 방식이 EFA를 요구하는 경우 비판을 철회 한 다음 PCA 또는 PCA와 EFA를 모두 수행하여 결과를 비교해야합니다.
ttnphns

2
PCA에서 추출 / 보존 할 차원의 수는 기본적으로 주관적이지만 EFA에서는 그 수가 고정되어 있으며 일반적으로 몇 가지 솔루션 (예 : 3에서 5 요인)을 확인해야합니다. 상관 행렬을 재현하고 해석 가능한 정도를 재현합니다. FA는 더 지루하므로, 사람들이 많은 EFA 패스를 시도하기 위해 양심적 접근 방식이 요구되는 경우 PCA를 선호합니다.
ttnphns

또한 Wikipedia 항목을 참조하십시오 : en.wikipedia.org/wiki/…
RobertF

15

이 대답에서 (두 번째로 여기에 추가 된 다른 것) PCA 가 공분산을 잘 복원하지 못한다는 것을 그림으로 보여 주려고 노력할 것입니다 (복원-최대화-분산 최적화).

PCA 또는 요인 분석에 대한 많은 답변에서와 같이 주제 공간 의 변수에 대한 벡터 표현을하겠습니다 . 이 경우 변수 및 해당 구성 요소로드를 표시 하는 로드 도표 일뿐입니다. 그래서 우리는 및 변수 (데이터 세트에 두 개만 있음), 의 첫 번째 주요 구성 요소, 및 로딩 을 . 변수 사이의 각도도 표시됩니다. 변수는 예비 중심에 있었으므로 제곱 길이 및 는 각각의 분산입니다.X 2 F a 1 a 2 h 2 1 h 2 2X1X2Fa1a2h12h22

여기에 이미지 설명을 입력하십시오

과 의 공분산은 스칼라 곱입니다. (이 코사인은 상관 관계 값입니다). 물론 PCA 성분 의 분산 인 의해 전체 분산 의 최대 값을 캡처합니다 .X1X2h1h2cosϕh12+h22a12+a22F

이제 공분산 . 여기서 은 변수 에 대한 변수 의 투영입니다 (두 번째에 의한 첫 번째의 회귀 예측 인 투영)입니다. 따라서 공분산의 크기는 아래의 사각형 영역 (측면 및 ) 으로 렌더링 될 수 있습니다 .h1h2cosϕ=g1h2g1X1X2g1h2

여기에 이미지 설명을 입력하십시오

소위 "요인 정리 (factor theorem)"(인자 분석에서 무언가를 읽는지 알고있을 수도 있음)에 따르면, 변수 간의 공분산은 추출 된 잠복 변수 ( )를 읽으십시오 . 즉, 우리의 특별한 경우에 (주성분을 잠재 변수로 인식하는 경우). 재현 된 공분산의 값은 변 과 가진 사각형의 영역으로 표현 될 수 있습니다 . 비교하기 위해 이전 사각형에 맞춰 사각형을 그립니다. 이 사각형은 아래에 빗금 표시되어 있으며 해당 영역의 별명은 cov * (재현 된 cov )입니다.a1a2a1a2

여기에 이미지 설명을 입력하십시오

이 예에서 cov * 가 상당히 더 큰 두 영역은 매우 유사하지 않습니다 . 공분산은 첫 번째 주성분 인 의 하중으로 과대 평가되었습니다 . 이것은 가능한 두 번째 요소 중 첫 번째 성분만으로 PCA가 공분산의 관측 된 값을 복원 할 것으로 기대할 수있는 사람과는 반대입니다.F

음모를 재현하기 위해 음모로 무엇을 할 수 있습니까? 예를 들어 빔으로 중첩 될 때까지 빔을 시계 방향으로 조금 회전시킬 수 있습니다 . 그들의 행이 일치하면 를 잠재적 변수로 강제 합니다. 그런 다음 ( 투영 )를 로드하는 것은 이고 ( 투영)을 로드하는 것은 입니다. 그런 다음 두 개의 사각형이 동일합니다 -cov 라는 레이블이 붙어서 공분산이 완벽하게 재현됩니다. 그러나 새로운 "잠복 변수"에 의해 설명 된 분산 인 는FX2X2a2X2h2a1X1g1g12+h22a12+a22 , 첫 번째 주요 구성 요소 인 이전 잠재 변수에 의해 설명 된 분산 공분산을 재현 할 수 있었지만 분산 량을 설명하는 비용은 발생했습니다. 즉, 첫 번째 주성분 대신 다른 잠재 축을 선택하여.

우리의 상상력이나 추측은 (수학자가 아니라 수학으로 증명할 수는 없으며 아마도 수학자가 아닙니다) 과 의해 정의 된 공간에서 잠재 축을 해제 하면 비행기가 스윙 할 수 있다고 제안 할 수 있습니다 우리를 향해 조금, 우리는 그것의 최적의 위치를 ​​찾을 수 있습니다 라고 부르십시오. 그러면 분산이 설명 된 동안 ( ) 공분산이 다시 완벽하게 재현됩니다 ( )는 주성분 의 만큼 크지는 않지만 보다 큽니다 .X1X2Fa1a2a12+a22g12+h22a12+a22F

이 조건 특히 잠재적 인 축 가 축과 및 다른 하나는 축과 포함합니다 . 그런 다음이 잠복 축을 공통 요인 이라고하며 전체 "독창성에 대한 시도"를 요인 분석 이라고 합니다 .FX1X2


PCA와 관련하여 @amoeba의 "Update 2"에 대한 답변.

@amoeba는 PCA와 SVD 또는 고유 분해에 기반한 고유 기술 (PCoA, biplot, 대응 분석)의 기초가되는 Eckart-Young 정리를 기억하는 데 정확하고 관련이 있습니다. 그것에 따르면, 의 번째 기본 축은 와 동일한 양을 최적으로 최소화 합니다. . 여기서 는 주축에 의해 재생 된 데이터를 나타냅니다 . 는 와 같은 것으로 알려져 있으며 , 는 의 가변 하중 입니다.kX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk 구성 요소.

그것은 뜻 이 최소화 우리는 고려한다면 충실 오프 대각선 대칭 행렬의 일부를? 실험 해보자.||XXXkXk||2

500 개의 랜덤 10x6매트릭스 가 생성되었습니다 (균일 분포). 각각의 열을 중심으로 한 후 PCA가 수행되었고 두 개의 재구성 된 데이터 행렬 계산되었습니다. 하나는 구성 요소 1에서 3까지 재구성 된 것으로 ( PCA에서 보통 먼저) 다른 하나는 구성 요소 1, 2로 재구성 된 것으로 , 및 4 (즉, 성분 3은 약한 성분 4로 대체 됨). 재구성 오류 (제곱 차이의 합 = 제곱 유클리드 거리)는 하나의 에 대해, 다른 대해 계산되었습니다 . 이 두 값은 산점도에 표시 할 쌍입니다.XXkk||XXXkXk||2XkXk

재구성 에러는 두가지 버전으로 매번 계산되었다 : (a) 전체 행렬 및 비교; (b) 두 행렬의 대각 외각 만 비교. 따라서, 우리는 두 개의 산점도를 가지고 있으며, 각각 500 포인트입니다.XXXkXk

여기에 이미지 설명을 입력하십시오

"전체 행렬"그림에서 모든 점이 y=x선 위에 있습니다. 이는 전체 스칼라 곱 행렬의 재구성이 "1, 2, 4 구성 요소"보다 "1-3 구성 요소"에 의해 항상 더 정확하다는 것을 의미합니다. 이것은 Eckart-Young 정리와 일치합니다. 주요 구성 요소가 가장 적합합니다.k

그러나 "비 대각선 만"플롯을 보면 y=x선 아래에 여러 점이 있습니다 . 때때로 "1 내지 3 개의 성분"에 의한 비 대각선 부분의 재구성은 "1, 2, 4 개의 성분"에 의한 것보다 더 나쁜 것으로 나타났다. 이는 최초의 주요 구성 요소가 PCA에서 사용 가능한 피팅 중에서 비대 각 스칼라 제품의 규칙적으로 가장 적합하지 않다는 결론을 자동으로 유도합니다 . 예를 들어, 강하지 않고 약한 구성 요소를 사용하면 재구성이 향상 될 수 있습니다.k

따라서 PCA 자체 의 영역에서도 우리가 아는 것처럼 전체 분산을 근사하고 전체 공분산 행렬을 수행하는 수석 주성분은 반드시 대각선 외부 공분산에 근사하지는 않습니다 . 따라서 더 나은 최적화가 필요합니다. 그리고 우리는 요인 분석 이 그것을 제공 할 수있는 기술 중 하나 라는 것을 알고 있습니다.


@amoeba의 "Update 3"에 대한 후속 조치 : 변수 수가 증가함에 따라 PCA가 FA에 접근합니까? PCA가 FA를 대신 할 수 있습니까?

나는 시뮬레이션 연구의 격자를 수행했습니다. 로딩 행렬 의 소수의 모집단 계수 구조 는 난수로 구성 되고 와 같은 해당 모집단 공분산 행렬로 변환되었으며 , 는 대각선 잡음입니다 (고유 차이). 이 공분산 행렬은 모든 분산 1로 만들어 졌으므로 상관 행렬과 같습니다.AR=AA+U2U2

- 요인 구조의 두 가지 유형의 설계되었다 날카로운확산 . 예리한 구조는 명확하고 간단한 구조를 가진 것입니다. (내 디자인에서) 각 변수는 정확히 하나의 요소에 의해 많이로드됩니다. 따라서 은 눈에 띄게 블록 모양입니다. 확산 구조는 고하 중과 저하 중을 구분하지 않습니다. 경계 내에서 임의의 값일 수 있습니다. 로딩 내에서 패턴이 생각되지 않는다. 결과적으로 해당 이 더 부드러워집니다. 모집단 행렬의 예 :RR

여기에 이미지 설명을 입력하십시오

요인의 수는 또는 입니다. 변수의 수는 비율 k = 인자 당 변수의 수에 의해 결정되었다 ; k는 연구에서 값 을 실행했습니다 .264,7,10,13,16

몇몇 구성 모집단의 각 , (샘플 크기에서 Wishart 분포로부터 무작위로 실현이 )가 생성되었다. 이들은 샘플 공분산 행렬이었습니다. 각각은 PCA 뿐만 아니라 FA (주축 추출에 의해)에 의해 인자 분석되었다 . 또한, 이러한 공분산 매트릭스 각각은 동일한 방식으로 인자 분석 (인자) 된 대응하는 샘플 상관 행렬로 변환되었다 . 마지막으로, "부모", 집단 공분산 (= 상관) 행렬 자체의 인수 분해도 수행했습니다. 샘플링 적합성의 Kaiser-Meyer-Olkin 측정 값은 항상 0.7 이상이었습니다.50R50n=200

2 개의 요인이있는 데이터의 경우 분석에서 2 개의 요인과 1 개의 요인뿐만 아니라 3 개의 요인 (정확한 요인 수 체계의 "과소 평가"및 "과대 평가")이 추출되었습니다. 6 개 요인이있는 데이터의 경우 분석에서 마찬가지로 6 개뿐만 아니라 4 개 및 8 개 요인도 추출했습니다.

이 연구의 목표는 FA 대 PCA의 공분산 / 상관 복원 특성입니다. 따라서, 비 대각선 요소의 잔차가 얻어졌다. 재생 된 요소와 모집단 행렬 요소 사이의 잔차뿐만 아니라 전자와 분석 된 샘플 행렬 요소 사이의 잔차를 등록했습니다. 첫 번째 유형의 잔차는 개념적으로 더 재미있었습니다.

표본 공분산과 표본 상관 행렬에 대한 분석 후 얻은 결과에는 특정한 차이가 있었지만 모든 주요 결과는 비슷했습니다. 그러므로 나는 "상관 모드"분석에 대해서만 논의하고 (결과를 보여줍니다).

1. PCA 대 FA에 의한 전체적인 대각선 외 적합

아래의 도표는 다양한 수의 요인과 다른 k에 대해 PCA에서 산출 된 평균 제곱 된 비 대각선 잔차와 FA에서 산출 된 동일한 수량비율을 나타냅니다 . 이것은 @amoeba가 "Update 3"에서 보여준 것과 유사합니다. 그림의 선은 50 번의 시뮬레이션에서 평균 경향을 나타냅니다 (여기에 오류 막대 표시는 생략 함).

(참고 : 결과는 모체 행렬을 부모로 인수하는 것이 아니라 무작위 표본 상관 행렬을 인수 분해하는 것에 관한 것입니다. PCA와 FA를 비교하는 방법에 대해 PCA를 FA와 비교하는 것은 어리석은 일입니다. FA는 항상 승리 할 것이며, 올바른 수의 요소가 추출되고 잔차가 거의 0이되어 비율이 무한대를 향해 돌진합니다.)

여기에 이미지 설명을 입력하십시오

이 음모에 대한 주석 :

  • 일반적인 경향 : k (요인 당 변수의 수)가 증가함에 따라 PCA / FA의 전체 하위 적합 비율은 1로 사라집니다. 즉, PCA가 FA에 접근하여 비대 각 상관 관계 / 공분산을 설명하는 데 더 많은 변수가 있습니다. (그의 대답에 @amoeba가 문서화했습니다.) 아마도 곡선을 근사하는 법칙은 비율 = exp (b0 + b1 / k)이고 b0은 0에 가깝습니다.
  • 비율은 wrt 잔차 "인구 마이너스 재생 샘플"(오른쪽 플롯)보다 wrt 잔차 "샘플 마이너스 재생 샘플"(왼쪽 플롯)이 더 큽니다. 즉, (사소하게), PCA는 즉시 분석되는 매트릭스를 피팅하는 데 FA보다 열등합니다. 그러나 왼쪽 그림의 선은 감소 속도가 더 빠르므로 k = 16만큼 오른쪽 그림과 같이 비율도 2 미만입니다.
  • 잔차 "인구에서 재생산 된 표본 빼기"를 사용하면 추세가 항상 볼록하거나 단조로운 것은 아닙니다 (비정상적인 팔꿈치가 원으로 표시됨). 따라서, 연설이 표본을 인수 분해하여 계수 의 모집단 행렬을 설명하는 한 , 변수의 수가 증가한다고해서 PCA가 적합 품질에서 FA에 더 가깝게되지는 않지만 경향이 있습니다.
  • 모집단의 m = 6 요인보다 m = 2 요인의 비율이 더 큽니다 (빨간색 선은 굵은 녹색 선 아래에 있음). 즉, 데이터 PCA에서 더 많은 요소가 작용할수록 FA를 빨리 따라 잡을 수 있습니다. 예를 들어, 오른쪽 그림에서 k = 4는 6 개의 요인에 대해 약 1.7을 산출하는 반면, 2 개의 요인에 대한 동일한 값은 k = 7에 도달합니다.
  • 실제 요인 수에 비해 더 많은 요인을 추출하면 비율이 더 높습니다. 즉, 추출시 요인의 수를 과소 평가하는 경우 PCA는 FA보다 적합하지 않습니다. 그리고 요인의 수가 정확하거나 과대 평가되면 더 많은 것을 잃습니다 (굵은 선으로가는 선을 비교하십시오).
  • 잔차를“인구에서 재생산 된 표본 빼기”로 간주하는 경우에만 나타나는 인자 구조의 선명도에 대한 흥미로운 효과가 있습니다. 오른쪽의 회색과 노란색 플롯을 비교하십시오. 모집단 요인이 변수를 분산 적으로로드하면 빨간색 선 (m = 6 요인)이 맨 아래로 가라 앉습니다. 즉, 혼란스러운 숫자의 로딩과 같은 확산 구조에서 PCA (샘플에서 수행됨)는 모집단의 상관 관계를 재구성하는 데있어서 FA보다 훨씬 나쁘지 않습니다. 매우 작은. 이것은 아마도 PCA가 FA에 가장 가깝고 치퍼 대체물로 가장 보증되는 조건 일 것입니다. 예리한 요인 구조가 존재하는 경우 PCA는 모집단 상관 (또는 공분산)을 재구성하는 데 너무 낙관적이지 않습니다. 큰 k 관점에서만 FA에 접근합니다.

2. PCA 대 FA에 의한 요소 수준 적합 : 잔차 분포

모집단 매트릭스로부터 50 개의 랜덤 샘플 매트릭스의 팩토링 (PCA 또는 FA에 의한)을 수행하는 모든 시뮬레이션 실험에 대해, 잔차 분포 "인구 상관 관계-(인수 분해에 의해 재현 된) 샘플의 상관 관계" 는 모든 비 대각선 상관 요소에 대해 얻어졌다. 분포는 명확한 패턴을 따랐으며 전형적인 분포의 예는 바로 아래에 나와 있습니다. PCA 인수 분해 후 결과 는 파란색 왼쪽이고 FA 인수 분해 후 결과 는 녹색 오른쪽입니다.

여기에 이미지 설명을 입력하십시오

주요 발견은

  • 절대적 크기에 의해, 집단 상관은 PCA에 의해 부적절하게 복원된다 : 재생 된 값은 크기에 의해 과대 평가된다.
  • 그러나 k (변수 수 대 인자 수 비)가 증가함에 따라 바이어스가 사라집니다 . 그림에서 요인 당 k = 4 변수 만있는 경우 PCA의 잔차는 0에서 오프셋으로 확산됩니다. 이는 2 개의 요인과 6 개의 요인이 모두있는 경우에 나타납니다. 그러나 k = 16이면 오프셋이 거의 보이지 않습니다. 거의 사라지지 않고 PCA 적합은 FA 적합에 접근합니다. PCA와 FA 사이의 잔차 확산 (분산) 차이는 관찰되지 않습니다.

추출 된 요소의 수가 실제 요소의 수와 일치하지 않는 경우에도 유사한 그림이 표시됩니다. 잔차의 분산 만 약간 변경됩니다.

회색 배경에 위에 표시된 분포 는 모집단에 존재 하는 예리한 (단순한) 요인 구조 를 사용한 실험과 관련이 있습니다. 확산 모집단 계수 구조의 상황에서 모든 분석을 수행 한 결과 , PCA의 바이어스는 k의 상승뿐만 아니라 m 의 상승 (계수)으로 사라짐을 알 수있었습니다. "6 요인, k = 4"열에 대한 축소 된 노란색 배경 부착물을 참조하십시오. PCA 결과에 대해 0에서 거의 오프셋이 관찰되지 않습니다 (오프셋은 아직 m = 2로 존재하지만 그림에는 표시되지 않음). ).

설명 된 결과가 중요하다고 생각하면서 잔차 분포를 더 깊게 검사하기로 결정 하고 잔차 (Y 축) 의 산점도 를 요소 (인구 상관) 값 (X 축)에 대해 플로팅했습니다 . 이 산점도는 각각 많은 (50) 시뮬레이션 / 분석 결과를 결합합니다. LOESS 핏 라인 (사용할 50 % 로컬 포인트, Epanechnikov 커널)이 강조 표시됩니다. 첫 번째 플롯 세트는 모집단에서 예리한 요인 구조 의 경우에 대한 것 입니다 (상관 값의 삼원 성이 분명합니다).

여기에 이미지 설명을 입력하십시오

댓글 달기 :

  • PCA의 특성 인 (위에서 설명한) 재구성 편향이 왜곡, 음의 추세 황토 선으로 나타납니다. 절대 값 모집단 상관 관계의 큰 값은 샘플 데이터 세트의 PCA에 의해 과대 평가됩니다. FA는 편견이 없습니다 (가로 황토).
  • k가 커짐에 따라 PCA의 바이어스가 줄어 듭니다.
  • PCA는 모집단에 몇 가지 요인이 있는지에 관계없이 편향됩니다. 6 개의 요인이 존재하고 (분석에서 6 개의 추출) 존재하는 2 개의 요인 (2 개의 추출)과 유사하게 결함이 있습니다.

아래의 두 번째 플롯 은 모집단 의 확산 계수 구조 에 대한 것입니다.

여기에 이미지 설명을 입력하십시오

다시 PCA의 편견을 관찰합니다. 그러나 급격한 요인 구조의 경우와 달리 요인의 수가 증가함에 따라 바이어스가 사라집니다. 6 개의 모집단 요인으로 인해 PCA의 황토 선은 k ​​미만에서도 수평에 그리 멀지 않습니다. 4입니다. 노란색 히스토그램 "

두 가지 산점도에서 흥미로운 현상 중 하나는 PCA의 황토 선이 S 자 곡선이라는 것입니다. 이 곡률은 그 정도가 다양하고 종종 약하지만, 나에 의해 무작위로 구성된 다른 모집단 요소 구조 (부하)에서 보여집니다. S 자 형태를 따르는 경우, PCA는 0에서 (특히 작은 k에서) 바운스하여 상관 관계를 빠르게 왜곡하기 시작하지만 약 30에서 40 사이의 값에서 안정화됩니다. 나는 그 행동의 가능한 이유 때문에이 시점에서 추측하지 않을 것이다. 나는“정현파”가 삼각 관계의 삼각 관계에 기인한다고 믿는다.

PCA vs FA에 의한 적합 : 결론

상관 관계 / 공분산 행렬의 비 대각선 부분에 대한 전체 적합치 인 PCA는 모집단의 표본 행렬을 분석 할 때 요인 분석을 대체 할 수 있습니다. 이는 변수의 수 / 예상 요소의 수가 충분히 클 때 발생합니다. (비율의 유리한 효과에 대한 기하학적 이유는 하단 각주 설명되어 있습니다.) 더 많은 요소가 존재하면 비율은 몇 가지 요소보다 적을 수 있습니다. 샤프 팩터 구조 (단순한 구조는 모집단에 존재)의 존재는 FA의 품질에 접근하기 위해 PCA를 방해한다.1

잔차 "인구-재생산 된 표본"이 고려되는 한, PCA의 전체 적합 능력에 대한 날카로운 인자 구조의 효과는 명백하다. 따라서 시뮬레이션 연구 설정 밖에서는 그것을 인식하지 못할 수 있습니다. 샘플에 대한 관찰 연구에서는 이러한 중요한 잔차에 접근 할 수 없습니다.

요인 분석과 달리 PCA는 0에서 멀어진 모집단 상관 (또는 공분산)의 크기에 대한 (긍정적으로) 편향 추정량입니다. 그러나 PCA의 치우침은 변수의 수 / 예상 요소의 수가 증가함에 따라 감소 합니다. 인구 집단의 요인 수가 증가함에 따라 편향 감소하지만이 후자의 경향은 날카로운 요인 구조로 인해 방해받습니다.

잔차 "샘플 마이너스 재생 샘플"을 고려할 때 PCA 맞춤 바이어스와 그에 대한 날카로운 구조의 영향을 알 수 있습니다. 새로운 노출을 추가하지 않는 것 같기 때문에 이러한 결과를 표시하는 것을 생략했습니다.

결국 잠정적이고 광범위한 조언 은 요인 보다 10 배 이상 더 많은 변수가 없는 한 전형적인 (예 : 모집단에서 10 이하의 요인이 예상되는) 요인 분석 목적으로 FA 대신 PCA를 사용 하지 않는 것이 좋습니다. 필요한 비율이 낮을수록 요인이 적습니다. 나는 FA 대신 PCA 사용을 권장하지 더욱 것 모두 잘 확립, 날카로운 요인 구조와 데이터를 분석 할 때마다 -를 같은 요인 분석 유효성을 검사 할 때와 개발 또는 이미 관절 구조 / 규모와 심리 테스트 또는 설문 조사를 시작하고 . PCA는 심리 측정 기기를위한 초기의 예비 품목 선택 도구로서 사용될 수있다.

연구의 한계 . 1) 나는 인자 추출의 PAF 방법만을 사용했다. 2) 샘플 크기는 고정되었다 (200). 3) 샘플 행렬을 샘플링 할 때 정규 모집단이 가정되었습니다. 4) 예리한 구조를 위해 요인 당 동일한 수의 변수가 모델링되었습니다. 5) 모집단 계수 로딩 구성 나는 거의 균일 한 (예리한 구조-3 모달, 3 피스 균일) 분포에서 빌려왔다. 6) 물론이 즉각적인 시험에는 감독이있을 수 있습니다.


각주 . PCAFA의 결과를 모방 하고 여기 에서 말한 것처럼 고유 요인 이라고 불리는 모델의 오류 변수 가 상관되지 않을 때 상관 관계의 동등한 적합치가됩니다 . FA는 노력 들이 상관 할 것이 아니라, PCA, 그들은 수없는 일이 PCA에 상관 될 수 있습니다. 발생할 수있는 주요 조건은 공통 요소 수 (공통 요소로 유지되는 구성 요소) 당 변수 수가 많은 경우입니다.1

다음 사진을 고려하십시오 (먼저 이해하는 방법을 배우려면 이 답변을 읽으십시오 ).

여기에 이미지 설명을 입력하십시오

몇 가지 m공통 요소 와의 성공적인 상관 관계를 복원 할 수있는 요소 분석의 요구 사항에 따라, 매니페스트 변수 의 통계적으로 고유 한 부분을 특징으로하는 고유 요소 는 서로 관련이 없어야합니다. PCA를 사용하는 경우, S는 거짓말 할 의 부분 공간 에 의해 스팬 - 공간 PCA이 때문에의 하지 않습니다 분석 변수의 공간을 남겨. 따라서 왼쪽 그림을 참조하십시오 (주요 구성 요소 은 추출 된 요소 임) 및 ( , ), 고유 한 요소 ,X U X P 1 X 1 X 2 U 1 U 2 r = 1UpXp Up-mpXm=1P1p=2X1X2U1U2나머지 두 번째 구성 요소를 강제로 중첩합니다 (분석 오류로 표시). 결과적으로 그것들은 과 상관 관계가 있어야합니다 . (그림에서 벡터 간 코사인과의 상관 관계는 동일합니다.) 필요한 직교성은 불가능하며 변수 간의 관측 된 상관 관계는 절대로 복원 될 수 없습니다 (고유 한 요소가 0 인 경우가 아니라면 사소한 경우).r=1

그러나 하나 더 많은 변수 ( ) 를 추가하면 오른쪽 그림과 여전히 하나의 pr을 추출합니다. 구성 요소를 공통 인자로 사용하려면 세 개의 가 평면에 있어야합니다 (나머지 두 개의 pr. 구성 요소로 정의). 3 개의 화살표는 각도가 180 도보 다 작은 방식으로 평면에 걸쳐있을 수 있습니다. 각도에 대한 자유가 생깁니다. 가능한 특정 경우로서, 각도 약 120 도일 있다. 그것은 이미 90도, 즉 상관 관계가 그리 멀지 않습니다. 이것은 그림에 표시된 상황입니다. UX3U

4 번째 변수를 추가하면 는 3D 공간에 걸쳐있게됩니다. (5), (5) 등을위한 공간 4D 걸쳐 많은 가까울 90도 확장 할 달성하는 동시에 각도. 이는 PCA가 비대 각 삼각형의 상관 행렬을 적합 시키는 능력 으로 FA에 접근 할 수있는 여지 또한 확대 될 것임을 의미합니다.U

그러나 실제 FA는 일반적으로 작은 비율의 "변수 수 / 인자 수"에서도 상관 관계를 복원 할 수 있습니다. 여기에 설명 (및 2 차 그림 참조) 요인 분석은 모든 요인 벡터 (공통 요인 (들) 및 고유 요인)를 허용하기 때문입니다. 변수 공간에 누워 있지 않아야합니다. 그러므로 단지 2 개의 변수 와 하나의 요인으로 도 의 직교성을위한 여지가 있습니다 .XUX

위의 그림은 PCA가 상관 관계를 과대 평가 하는 이유에 대한 확실한 단서를 제공 합니다. 왼쪽 그림 예에 1, s는의 돌출부이다 의 S (의 하중 )와 (S)의 길이이다 의 S (하중 ). 그러나 만으로 재구성 된 상관 관계는 와 같습니다 . 즉, 보다 큽니다 .rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
PCA / FA / CCA 도면이 마음에 들기 때문에 행복하게 +1합니다. 이런 사고 방식은 전적으로 익숙하지 않은 것이기 때문에, 내가 아는 수학에 매핑 할 생각이 필요합니다 ... 그러나 여기 (및 다른 유명한 FA-vs-PCA 답변에서) 그림) 두 개의 변수 만 있습니다. 내 대답에서 말했듯이 두 변수 만있을 때 FA의 한 요소는 100 % 완벽하게 공분산을 재현하기에 충분합니다 (대각선을 제외하고 공분산 행렬에 자유도가 1 개 있기 때문에). 하나의 PC는 일반적으로 그것을 할 수 없습니다. 따라서 내 대답과 모순되지 않습니다.
amoeba

흠, 나는 FA와 PCA에 의한 다른 생식의 요점을 오해하지 않기를 바랍니다. 여기가 내 요점을 짧게 말하는데, 또 다른 답을 드리겠습니다
Gottfried Helms

2
업데이트에 답장하기 (내 업데이트 2에 대한 답장) : 나는 여기에 쓴 모든 것에 동의합니다! PCA 로딩은 전체 공분산 행렬 (대각선 포함)에 대한 가장 낮은 순위 근사치이지만 반드시 대각선 이외의 부분에 대한 가장 낮은 순위 근사값은 아닙니다. 후자의 근사치는 요인 분석에 의해 제공됩니다. 우리는 여기서 상호 합의에 도달 한 것 같습니다. 아니면 여전히 내 대답의 일부가 당신의 생각과 모순된다고 생각합니까?
amoeba

1
@ttnphns : 위에서 논의한 내용을 다시 읽고, 원래의 답변에서 한 지점으로 되돌아 가겠습니다. PCA는 전체 공분산 행렬에 가까운 하중을 찾으려고합니다. FA는 대각선 이외의 부분에 가까운 하중을 찾으려고합니다. 그러나 차원이 클수록 공분산 행렬의 작은 부분은 대각선으로 가져옵니다. 즉, 큰 차원에서 PCA는 주로 대각선 이외의 부분에 대해 관심을 갖기 시작합니다 (대각선 부분이 너무 작아짐). 따라서 일반적으로 차원이 클수록 PCA가 FA에 더 가깝습니다. 동의하십니까?
amoeba

1
핑, ttnphns 주셔서 감사합니다. 와우, 이거 흥미로운 데 나는주의 깊게 읽을 것이지만 지금은 아닙니다. 1 월까지 연기해야 ​​할 수도 있습니다. 읽은 후에는 여기에 의견을 드리겠습니다. 그건 그렇고, 나는이 스레드로 돌아와서 더 화해하도록하기 위해 내 답변을 약간 편집하는 것에 대해 (고개 뒤로) 생각했습니다. 이것은 그렇게 할 수있는 좋은 기회 일 수 있습니다 (그러나 먼저 쓴 것을 읽으십시오). С наступающим!
amoeba

4

(실제로 @ttnphns의 두 번째 답변에 대한 의견입니다.)
PC와 FA에 의한 오류를 가정하는 공분산의 다른 유형의 재생산에 관한 한, 두 가지 절차에서 발생하는 분산의 하중 / 성분을 인쇄했습니다. ; 예를 들어 2 개의 변수를 사용했습니다.

우리는 두 가지 항목의 구성을 하나의 공통 요소와 항목 별 요소로 가정합니다. 인자 로딩 매트릭스는 다음과 같습니다.

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

이것에 의한 상관 행렬은

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

loading-matrix L_fa를보고 FA에서 f2와 f3이 오류 항 / 항목 별 오류임을 평소와 같이 해석하면 오류없이 C를 재생산하여

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

따라서 공분산 인 대각선 이외의 요소를 완벽하게 재현했습니다 (대각선이 감소됨).

pca-solution을 보면 (간단한 회전으로 수행 할 수 있음) 동일한 상관 행렬에서 두 가지 요소를 얻을 수 있습니다.

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

두 번째 요소를 오류로 가정하면 재현 된 공분산 행렬을 얻습니다.

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

실제 상관 관계를 과대 평가 한 곳 입니다. 두 번째 요인 = 오류에서 음의 부분 공분산 수정을 무시했기 때문 입니다. PPCA는 첫 번째 예와 동일합니다.

더 많은 아이템으로 이것은 더 이상 분명하지 않지만 여전히 고유 한 효과입니다. 따라서 MinRes 추출 (또는 회전?)이라는 개념도 있으며 최대 결정 추출 및 ...와 같은 것을 보았습니다.


[갱신] @amoeba의 질문은 :

나는 상관 행렬의 비 대각선 요소의 최상의 재생산을 달성하기 위해 초기 최소 CFA 계산 방법에 대한 공통 방법으로 "최소 잔차"( "MinRes") 회전의 개념을 이해했다. 나는 80 년대 / 90 년대에 이것을 배웠고 (최근 몇 년 전과 같이 깊이있는) 요인 분석의 개발을 따르지 않았기 때문에 아마도 "MinRes"는 유행이 아닙니다.

그것을 PCA 솔루션 과 비교하기 위해 : 유클리드 공간에서 축으로 생각되고 하중이 해당 벡터 공간에서 항목의 좌표 인 경우 요인의 회전으로 pc 솔루션을 찾는 것으로 생각할 수 있습니다.
그런 다음 x, y와 같은 축 쌍에 대해 x 축 및 y 축의 하중에서 제곱합을 계산합니다.
이것에서 우리가 회전해야 할 회전 각도를 찾을 수 있습니다. 회전 된 축의 제곱합 은 x °에서 최대이고 y ° 축에서 최소입니다 (여기서 원은 회전 된 축을 나타냅니다) .

모든 축 쌍에 대해이 작업을 수행하면 (항상 x 축만 왼쪽이고 y 축이 오른쪽입니다 (4 요인의 경우 6 쌍의 회전 만 있음)) 전체 프로세스를 안정적인 결과로 반복하십시오 주요 구성 요소 솔루션을 찾기 위해 소위 "Jacobi-method"를 실현합니다. 첫 번째 축은 가능한 최대 하중의 제곱합 ( "SSqL")을 수집하도록 "축의 편차" 현재 상관 구성의 한 축에서 ").

내가 이해 한 한, " MinRes "는 SSqL 대신 부분 상관 관계를보아야합니다. 따라서 (Jacobi-pc-rotation에서와 같이) 하중의 제곱을 합산하지는 않지만 각 요인의 하중의 "교차 생성물"(= 제곱)을 제외하고 각 요인에서 하중의 교차 생성물을 합산합니다. 그 자체로 항목.
x 및 y 축에 대한 기준이 계산 된 후에는 반복 자코비 회전에 대해 설명 된 것과 동일한 방식으로 진행됩니다.

회전 기준이 최대 SSqL 기준과 수치 적으로 다르기 때문에 결과 / 회전 위치는 PCA 솔루션과 달라야합니다. 수렴하면 대신 첫 번째 요소에서 한 축에 가능한 최대 부분 상관 관계를 제공하고 다음 요소에서 다음 최대 상관 관계를 제공해야합니다. 아이디어는 나머지 / 잔여 부분 공분산이 한계가되도록 너무 많은 축 / 인자를 가정하는 것 같습니다.

(이것은 내가 일을 해석하는 방법 일뿐입니다. 절차가 명시 적으로 작성된 것 (또는 현재 기억할 수 없음)을 보지 못했습니다 .mathworld에 대한 설명 은 amoeba의 답변과 같은 공식의 관점에서 그것을 표현하는 것 같습니다) 아마도 더 권위있는. R- 프로젝트 문서 에서 다른 참조 를 찾았고 116 페이지의 Gor -book 요인 분석 페이지 에서 google-book을 통해 얻을 수있는 아주 좋은 참조를 찾았습니다 )


마지막 문장에서 언급 한 내용을 설명 할 수 있습니까? "MinRes"또는 "Maximum-determinant"추출이란 무엇이며 이전에 작성한 것과 어떻게 관련이 있습니까?
amoeba

"MinRes"는 몇 년 전에 S Mulaik 또는 K. Überla의 Factoranalysis에 관한 논문에서 추출 또는 회전 방법입니다. 잔차 외각 요소를 최소화하는 데 중점을 둡니다. 다른 많은 방법의 맥락에서 명시 적으로 언급 되었기 때문에 나는 그 시대의 CFA 구현과 약간 다른 것으로 가정했습니다. 나는 그 근거를 회전 기준으로 구현하려고 시도했지만 어떻게 든 결정적인 결과는 없었습니다. 또한 "결정자 최대화"가 여기에 알려져있을 것으로 예상했습니다. 내가 20 년 전에받은 설명을 볼 수 있습니다 ...
Gottfried Helms

아, 두 부분 다 있어요 "minres"-이론에 대한 회전 기준에 대한 설명은 go.helms-net.de/stat/fa/minres.htm에 있습니다. "최대 결정 인자"는 일부 "제프리 오웬 카츠 (Jeffrey Owen Katz)"의 추출 / 회전 방법 하의 수학적 모델로,이를 "oblisim"이라고하며 우리의 통신 후에 개발되었을 수 있습니다. 그때까지 그것은 내 머리 위에 있었다. 어쨌든 나는 방법을 이해하려고 노력하고 그것을 단어 파일로 형식화하고 재구성했다. 참조 go.helms-net.de/stat/fa/oblisim.zip 구글을 "oblisim은"을 도입 것 같다 뉴스 그룹-항목을 주었다.
Gottfried Helms

@amoeba : Jeff Katz가 그의 메소드 세트를 소개 한 첫 번째 항목은 다음과 같습니다. mathforum.org/kb/message.jspa?messageID=1516627 1998 년에 시작된 약 20 년 전의 추측은 약간 부정확합니다 ...
Gottfried Helms

2

내 생각에, "PCA"와 "FA"의 개념은 "탐사", "확인 적"또는 어쩌면 "추론 적"의 개념과 다른 차원에있다. 따라서 두 가지 수학 / 통계 방법 각각에 세 가지 방법 중 하나를 적용 할 수 있습니다.

예를 들어, 왜 내 데이터에 일반적인 요소와 주요 구성 요소의 구조가 있다고 생각하는 것이 무의미한 이유는 무엇입니까? (전자 장치를 사용한 실험에서 거의 오류가없는 데이터가 제공 되었기 때문에) 내 가설을 검정합니다. 후속 요인의 고유 값이 75 %의 비율로 발생한다는 점 이것은 확인 프레임 워크에서 PCA입니다.

다른 한편으로, 우리 연구팀에서는 학생들 간의 폭력을 측정하고 3 가지 주요 행동 (물리적 침략, 우울증, 당국 / 부모의 도움을 구하는 것)을 가정하고 관련 질문을하는 아이템 배터리를 많은 작업으로 만드는 것은 우스운 것 같습니다. 그 배터리에서 ... 그리고 "탐구 적으로"우리가 가지고있는 많은 요소들을 해결합니다 ... 대신, 우리의 저울에 세 가지 인식 가능한 요소 (소홀히 할 수있는 항목 별 및 아마도 상관 관계가있는 오류 외에)가 얼마나 잘 포함되어 있는지 살펴보십시오. 그 후, 내가 확인했을 때, 실제로 우리의 아이템 배터리가 의도를 제공한다는 것을 우리는 가설을 테스트 할 수 있습니다. 어린 아이들의 클래스에서 "권한에 의한 도움 검색"을 나타내는 요소에 대한 부하가 더 높다 나이든 학생들보다 흠, 다시 확인 ...

그리고 탐험? 나는 1960 년부터 미생물학 연구에서 취한 일련의 조치를 취했으며 이론이 많지 않았지만 연구 분야가 아주 젊었 기 때문에 그들이 관리 할 수있는 모든 것을 샘플링했으며 (예를 들어) 지배적 인 요인 구조를 다시 연구했습니다. , 사용 된 현미경의 광학적 정밀도 (방금 배운 것처럼 ppca-ansatz)로 인해 모든 오차의 양이 동일합니다. 그런 다음 FA에 대한 통계적 (및 그에 따른 수학적) 모델을 사용하지만이 경우에는 탐구 적 방식으로 사용합니다.

이것이 내가 용어를 이해하는 방법입니다.
어쩌면 나는 여기에 완전히 잘못된 길을 가고 있지만, 나는 그것을 가정하지 않습니다.


추신. 90 년대에 나는 작은 대화식 프로그램을 작성하여 PCA의 방법과 요인 분석을 아래로 탐색했습니다. Turbo-Pascal로 작성되었지만 여전히 Dos-Window에서만 실행할 수 있지만 (Win7의 "Dos-box") 대화식으로 요소를 포함할지 여부를 변경 한 다음 회전하고 항목 별 오류를 구분합니다. 분산 (SMC 기준 또는 등분 산 기준 (ppca?)에 따름), 카이저 옵션 켜기 / 끄기, 공분산 사용 켜기 / 끄기-인수로드 행렬이 스프레드 시트에서와 같이 표시되는 동안 기본 회전 방법에 따라 회전 할 수 있습니다.
고도로 정교하지는 않습니다. 예를 들어 카이 제곱 테스트가 없으며 내부 수학 역학에 대한 자체 학습을위한 것입니다. 또한 프로그램이 실행되는 "데모 모드"가있어 화면에 설명 주석을 표시하고 사용자가 일반적으로하는 키보드 입력을 시뮬레이션합니다.
자체 학습 또는 교육에 관심이있는 사람은 내 작은 소프트웨어 페이지 ( -R..zip)에서 다운로드 할 수 있습니다 . Dos-Box에서 액세스 할 수있는 디렉토리에서 zip 파일을 확장하고 "demoall.bat"를 호출하십시오. "demoall"의 세 번째 부분 처음에 pca-solution에서 회전하여 항목 별 오류를 모델링하는 방법을 시연했습니다 ...


프로그램의 R 포트가 흥미로울 것입니다. 그건 그렇고, 나의 첫 번째 프로그래밍 언어 (그리고 가장 좋아하는 언어 중 하나)는 [Turbo] Pascal이었습니다. 나는 심지어 BS 졸업장 작업을 위해 소프트웨어를 작성하는 데 사용했습니다. 그런 다음 얼마 후, 다른 언어 및 시스템과 함께 Delphi를 잠시 동안 사용했습니다. :-)
Aleksandr Blekh

1
@Aleksandr : 글쎄, 그러한 수입품은 반드시 좋은 생각 일 것입니다. 그러나 ... 그동안 현지 교통 시스템에 대한 "노인 티켓"을 받았지만 아직 은퇴하지는 않았지만 프로그래밍에 약간 지쳤습니다. "Delphi"는 Turbo Pascal의 자연스러운 대체품이라고 생각합니다. ; Inside- [r]를 도우미 도구로 통합 한 Delphi 6을 사용하여 Inside- [r]를 행렬 계산기 "MatMate"까지 향상 시켰습니다. 그러나 때로는 내부-[r]에서 point & click 기능이있는 훌륭한 기능도 정교한 스크립트 또는 통역 언어 외에 다시 실현되어야한다고 생각합니다.
Gottfried Helms

2

-estimate 의 특성에 대한 @amoebas의 길고 (정말 훌륭한) 대답에 대한 추가 언급 하나만 있습니다. Ψ

초기 문에서, 당신은 세 가지를 PCA입니다 : PPCA이 들어, 하고 FA 당신은 왼쪽 확정. ΨΨ=0Ψ=σ2IΨ

그러나는이 있음을 언급한다 무한 다양한 수의 수 (반드시 제한)하지만 정확히 하나의 하나의 요인 행렬의 계수를 최소화 할 수 있습니다. 이것을 라고합시다. 대한 표준 (자동) 추정치 는 SMC를 기반으로 한 대각 이므로 (그리고 심지어 일부 소프트웨어 최적화하지 마십시오 (것) 다운에서 동안 (일반적으로) 헤이 우드 케이스 / 음의 명확성)을 방지하는 데 필요합니다. 그리고 심지어 최적화 된 조차도Ψ o p t Ψ s t d Ψ s t d = α 2 D s m c α 1 α < 1 α 2 Ψ s t dΨ o p t Ψ o p tΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2따라서 일반적으로 우리가 가지고, 나머지 공분산의 최소한의 순위를 보장 할 것 없습니다 일반적으로 : 동일한 . 실제로 찾는 것은 매우 어려운 게임이며 내가 아는 한 (그러나 20 년 전 책에 더 많이 관여하고 책에 더 가까워 졌을 때) "아직 멀지 않습니다". 해결되지 않은 문제. ΨstdΨopt
Ψopt


이것은 문제 의 이상적인 수학적 측면을 반영하며 와 도 실제로 작을 수 있습니다. 그러나 좀 더 일반적인 경고는 샘플 만 연구 하거나 전체 인구에 대한 데이터를 가지고 있다는 관점에서 전체 인수 분해 메커니즘을 논의한다는 것입니다 . 모집단에 대한 불완전한 표본에서 추론하는 추론 적 통계 모델에서, 경험적 공분산 및 따라서 요인 행렬은 추정치 일 뿐이며 "진정한"공분산 / 인자 행렬의 그림자 일뿐입니다. 따라서 이러한 프레임 워크 / 모델에서는 "오류"가 이상적이지 않다는 점을 고려해야합니다. Ψ o p tΨstdΨopt따라서 가짜 상관 관계가있을 수 있습니다. 따라서 실제로 그러한 모델에서 우리는 상관없는 오류, 따라서 엄격하게 대각선 인 이상 주의적 가정을 우리 뒤에 남겨 두어야합니다 .Ψ


안녕하십니까, 귀하의 의견을 전적으로 따를 수 있는지 확실하지 않습니다. 의해 가 가능한 가장 낮은 순위 (여기서 는 cov / corr 행렬 임)를 갖는 긍정적 인 요소를 가진 대각선 행렬을 의미한다는 것을 올바르게 이해 하고 있습니까? 나는 크기의 일반적인 에 대해이 가능한 최저 순위가 보다 작지 않을 것이므로 ( 또는 무언가) 아마도 찾는 것은 그리 흥미로 보이지 않습니다. FA가 주어진 대해 크기 의 와 를 찾으려고 가정한다는 가정을 바탕으로 대답했습니다. C Ψ o p t C C n × n n n 1 Ψ o p t Ψ W n × k k C W W Ψ ΨoptCΨoptCCn×nnn1ΨoptΨWn×kk)를 최소화하려면. CWWΨ
amoeba

관점의 차이는 서로 의존하는 2 개의 파라미터를 추정하기 위해 문제를 해결하는 단계의 순서에 기초 할 수있다. 내 말에 내가 있다는 것을, 점으로 시작 나머지 순위라고하는 ,의 최소화 및 , 우리가 몇 가지 요소 수를 가지고있을 동안 와 마음입니다. 을 minres-position으로 회전하면 에서 잘린 의 요소 가 최소 (부분) 공분산 만 제거합니다. ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Gottfried Helms

(...) 대신 시작하면 는 일반적으로 적어도 하나 이상의 순위를 가지므로 을 갖는 요인의 수입니다 . 그런 다음 인자 를 절단하여 (pc 또는 minres와 같은 일부 기준으로 회전 한 후에도) 제거 가능한 공분산의 최소량을 찾는 것은 차선책입니다. 면책 조항 : 이것은 여전히 ​​가설입니다- 공분산의 경우 를 찾기가 어렵습니다. 구조는 자체 제작되지 않으며 자체 제작 된 예제를 사용한 모든 의사 난수 실험은 경험적 사례보다 신뢰성이 떨어집니다. ΨstdCstds>rs+1kΨopt
Gottfried Helms

네 말을 이해합니다. 내 요점은 대부분의 진짜이다 의 계급 와 거의 동일합니다 즉, . 그 후에 단순히 을 회전 아마도 에서 PCA를 수행하는 것과 거의 비슷하거나 FA에 전혀 않을 것입니다. C = C Ψ o p t C r n k W r CCC=CΨoptCrnkWrC
amoeba

참된. 글쎄, 나는 우리가 실질적으로 계산 가능한 근사치로 줄인 곳에서 "이상적인"사건을 찾아야 할 부분을 가장 명확하게 표현하려고 생각했다. <br> 그리고 PCA에 더 유리한 점 ;-) : 오류에서 스퓨리어스 상관 관계를 허용하면 (두 번째 애플리케이션 / 추론 통계 모드에서) 결과는 PC 추출로 시작한 유형 중 하나에 더 가깝게 도달합니다. ...
Gottfried Helms
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.