주요 목표가 소수의 구성 요소 만 추정하는 경우 PCA 또는 FA의 최소 표본 크기는?


27

관측치와 변수 (치수) 가있는 데이터 세트가 있고 일반적으로 이 작고 ( ) 가 작은 것 ( )에서 훨씬 더 큰 것 ( ).n=1216=410=3050

주성분 분석 (PCA) 또는 요인 분석 (FA)을 실행하려면 이 보다 훨씬 커야한다는 사실을 기억 하지만 내 데이터에는 그렇지 않은 것 같습니다. 내 목적으로 PC2 이전의 주요 구성 요소에는 거의 관심이 없습니다.

질문 :

  1. PCA를 사용할 수 있고 사용하지 않을 때 최소 샘플 크기에 대한 경험적 규칙은 무엇입니까?
  2. 또는 경우에도 처음 몇 대의 PC를 사용해도 괜찮 습니까?=<
  3. 이것에 대한 언급이 있습니까?
  4. PC1과 PC2를 사용하는 것이 주요 목표인지 여부는 중요합니다.

    • 단순히 그래픽으로, 또는
    • 합성 변수로서 회귀에 사용 되는가?

요인 분석과 관련하여 이런 종류의 지침을 읽은 것을 기억합니다. PCA에만 관심이 있습니까? 또한 대답은 처리하는 데이터 유형에 따라 달라질 수 있습니다. 특정 응용 분야를 염두에두고 있습니까?
Gala

1
아래의 의견과 참조에 대해 Gael에게 감사드립니다. 이제 FA와 PCA의 차이점을 알아야합니다. :)
Patrick

3
이 질문은이 사이트에서 광범위하게 다루어 졌습니다. 예 : stats.stackexchange.com/questions/1576/…stats.stackexchange.com/questions/612/…
Gala

답변:


21

실제로 샘플 크기가 "충분히 큰지" 측정 할 수 있습니다 . 작은 표본 크기의 한 가지 증상은 너무 작다는 것입니다.

PCA의 부트 스트랩 또는 교차 검증 :이 기술은 샘플의 작은 부분을 삭제 / 교환하여 데이터 세트를 방해 한 다음 방해 된 각 데이터 세트에 대해 "대리 모델"을 구축합니다. 서로 게이트 모델이 충분히 유사하면 (= 안정적) 괜찮습니다. PCA의 솔루션이 독창적이지 않다는 점을 고려해야 할 것입니다. PC는 뒤집을 수 있습니다 (점수와 각 주요 구성 요소에 곱함 ). Procrustes 회전을 사용하여 가능한 유사한 PC 모델을 얻을 수도 있습니다.1


고마워요 부트 스트래핑이 16만큼 낮은 n으로 지나치게 유익하다고 생각하십니까? 이해하기 위해 많은 PCA를 실행하여 각 사이트마다 하나의 사이트를 제외함으로써 상대적 안정성을 찾고 있습니다.
Patrick

이 경우 하나의 샘플 (또는 2 개의 샘플이없는 120 개의 모델 모두)을 삭제하여 방해되는 16 개의 모델을 모두 볼 수 있습니다. 나는 작은 아마도 체계적인 이력서 같은 접근법을 갈 것이라고 생각 합니다.
cbeleites는 Monica를 지원합니다.

23

요인 분석 (주요 구성 요소 분석이 아님)의 경우 관측 횟수에 관한 기존의 몇 가지 경험 규칙에 의문을 제기하는 문헌이 많이 있습니다. 적어도 정신 측정 학 내에서 전통적인 권장 사항 은 어떤 경우에도 와 같이 변수 당 적어도 관측치 ( 일반적으로 ~ )가 있어야 합니다.엑스엑스520

참조가 많은 다소 철저한 개요는 http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis 에서 찾을 수 있습니다 .

그러나 최근의 시뮬레이션 연구에서 얻은 주요 메시지는 아마도 지역 사회, 요인의 수 또는 요인 대 변수 비율 등에 따라 결과의 품질이 너무 다양하다는 것입니다. 변수 대 관측치 비율은 필요한 관측치 수를 결정하는 좋은 방법이 아닙니다. 조건이 상서로운 경우 이전 지침에서 제안한 것보다 훨씬 적은 수의 관찰 결과를 얻을 수 있지만 가장 보수적 인 지침조차 너무 낙관적입니다. 예를 들어 Preacher & MacCallum (2002)은 매우 작은 샘플 크기와 양호한 결과를 얻었 지만 Mundfrom, Shaw & Ke (2005)는 의 샘플 크기를 발견했습니다.>>100필요했다. 또한 기본 요인의 수가 동일하게 유지되면 더 많은 변수 (및 관측 값 대 변수 비율을 기반으로하는 지침에 의해 암시 된 것처럼 더 적음)가 적은 관측 샘플로 더 나은 결과를 얻을 수 있음을 발견했습니다.

관련 참조 :

  • Mundfrom, DJ, Shaw, DG, & Ke, TL (2005). 인자 분석을 수행하기위한 최소 샘플 크기 권장 사항. International Journal of Testing, 5 (2), 159-168.
  • 설교자, KJ, MacCallum, RC (2002). 행동 유전학 연구에서의 탐색 적 요인 분석 : 작은 표본 크기로 요인 회복. 행동 유전학, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D., & Wieringa, PA (2009). 표본 크기가 작은 탐색 계수 분석. 다변량 행동 연구, 44 (2), 147-181.

5
(+1) 시뮬레이션 및 실제 데이터 세트를 사용하는 또 다른 논문은 N / p 썸네일이 실제로는 잘 수행되지 않으며 EFA에서 안정적이고 정확한 솔루션을 얻는 데 필요한 샘플 크기를 제공한다는 것을 보여줍니다 다양한 품질 기준에 대한 등에 활용할 - 인자의 수와 정신 규모의 항목 번호 (및 선택적 FELDT의 공식에 따라 크론 바흐의 알파 95 % CI의 반치폭)의 함수로서 : 샘플 크기 요건 정신과 저울의 내부 검증 Int J Methods Psychiatr Res. 2011 년 12 월; 20 (4) : 235-49.
chl

1

MVA 불평등의 기본 개념은 간단합니다. PCA는 변수의 상관 행렬을 추정하는 것과 같습니다. 당신은 을 추측하려고합니다12

각 PCA 단계는 최적화 문제입니다. 우리는 가장 큰 차이를 나타내는 방향을 찾으려고 노력하고 있습니다. 즉 :

에이엑스(에이나는Σ에이나는)

σ

제약 조건에서 :

에이나는에이나는=1

에이나는에이j=0
j<나는

Σσ

n = p를 취하는 것은 두 개의 데이터 만있는 값을 추측하는 것과 거의 비슷합니다. 신뢰할 수 없습니다.

엄지 손가락의 규칙은 없습니다. PCA는 에서 값을 추측하는 것과 거의 같습니다.2


케이케이(1)+(2)++(케이)케이(1)/2
whuber

요점은 행렬의 p (p-1) / 2 계수에서 고유 벡터의 (pk) 계수를 계산하는 것입니다. 랜덤 행렬의 경우 고유 벡터 / 고유 값을 계산하는 일부 계수를 "건너 뛰는"방법이 없다고 생각합니다.
lcrmorin

물론, 일반적인 알고리즘은 가장 큰 고유 값에서 고유 값과 고유 벡터를 한 번에 하나씩 찾습니다. 또한 이것은 계산 문제가 아니라 예상 값을 세는 것 중 하나입니다. 답을 잘못 읽지 않는 한?
whuber

1

이것이 도움이 되길 바랍니다.

FA와 PCA 모두

''이 장에서 설명하는 방법은 안정적인 솔루션을 도출하기 위해 큰 샘플이 필요합니다. 적절한 표본 크기를 구성하는 것은 다소 복잡합니다. 최근까지 분석가들은“인자 분석에는 변수보다 5-10 배 많은 피험자가 필요합니다.”와 같은 경험 법칙을 사용했습니다. 최근 연구에 따르면 필요한 표본 크기는 요인의 수, 각 요인과 관련된 변수의 수 및 방법에 따라 달라집니다 여러 요인들이 변수의 분산을 설명합니다 (Bandalos and Boehm-Kaufman, 2009). 나는 사지로 가서 수백 개의 관측치가 있다면 아마도 안전하다고 말할 것입니다. ''

참고:

Bandalos, DL 및 MR Boehm-Kaufman. 2009. “탐사 계수 분석에 대한 4 가지 오해.” 통계 및 방법 론적 신화와 도시 전설에서, CE Lance와 RJ Vandenberg, 61-87에 의해 편집 됨. 뉴욕 : Routledge.

Robert I. Kabacoff의 "R in Action"에서 거의 모든 통계 테스트를 다루는 유용한 정보를 제공하는 매우 유용한 책입니다.


2
책을 꽂고 2 차 또는 3 차 소스를 기반으로하기 전에 작성된 몇 가지 요점을 다시 해치는 것 같습니다. 이것은별로 유용하지 않은 것 같습니다. 최소한 Bandalos and Boehm-Kaufman, 2009에 대한 전체 참조를 제공 할 수 있습니까?
갈라
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.