연속 데이터와 범주 데이터가 모두있는 데이터 세트가 있습니다. PCA를 사용하여 분석 중이며 범주 변수를 분석의 일부로 포함시키는 것이 좋은지 궁금합니다. PCA는 연속 변수에만 적용 할 수 있다는 것을 이해합니다. 그 맞습니까? 범주 형 데이터에 사용할 수없는 경우 분석에 어떤 대안이 있습니까?
연속 데이터와 범주 데이터가 모두있는 데이터 세트가 있습니다. PCA를 사용하여 분석 중이며 범주 변수를 분석의 일부로 포함시키는 것이 좋은지 궁금합니다. PCA는 연속 변수에만 적용 할 수 있다는 것을 이해합니다. 그 맞습니까? 범주 형 데이터에 사용할 수없는 경우 분석에 어떤 대안이 있습니까?
답변:
이진 데이터에 적용되는 PCA는 다중 대응 일치 분석 에서 얻은 결과와 비교할 수있는 결과를 산출하지만 (요소 점수와 고유 값은 선형 적으로 관련됨) 혼합 데이터 유형, 즉 혼합 데이터에 대한 다중 요인 분석을 처리하는 데 더 적합한 기술이 있습니다. FactoMineR R 패키지 ( AFDM()
). 변수를 설명 적 속성의 구조화 된 부분 집합으로 간주 할 수있는 경우 다중 요인 분석 ( MFA()
)도 옵션입니다.
범주 형 변수의 문제점은 요인 공간에서 변수 범주와 개인 간의 거리를 나타내는 적절한 방법을 찾는 것입니다. 이 문제를 극복하기 위해 최적의 스케일링으로 각 변수의 명목, 순서, 다항식 또는 숫자에 관계없이 비선형 변환을 찾을 수 있습니다. 이것은 R의 최적 스케일링을위한 Gifi 방법 : 패키지 homals에 잘 설명 되어 있으며 해당 R 패키지 homals 에서 구현을 사용할 수 있습니다 .
Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysis
, 우리는 명목 범주 형 변수 (N 카디널리티로 말하자)를 (N-1) 더미 이진 모음으로 변환 한 다음이 데이터에 대해 PCA를 수행 할 수 없습니까? (보다 적절한 기술이 있다는 것을 이해합니다)
Google 검색 "이산 변수에 대한 pca"는 S. Kolenikov (@StasK)와 G. Angeles의 훌륭한 개요 를 제공합니다 . chl 답변에 추가하기 위해 PC 분석은 실제로 공분산 행렬의 고유 벡터 분석입니다. 따라서 문제는 "올바른"공분산 행렬을 계산하는 방법입니다. 접근 방법 중 하나는 다항식 상관 관계 를 사용하는 것 입니다.
Linting & Kooij, 2012 "CATPCA를 사용한 비선형 주성분 분석 : 튜토리얼 ", Journal of Personality Assessment ; 94 (1).
요약
이 기사는 Rorschach Inkblot Test에 의한 성격 평가에 대한 실제 데이터를 분석하는 과정을 통해 독자를 체계적으로 안내하는 비선형 주성분 분석 (NLPCA)을위한 튜토리얼로 설정되었습니다. NLPCA는 선형 PCA에 대한보다 유연한 대안으로, 다른 유형의 측정 수준으로 비선형 적으로 관련된 변수의 분석을 처리 할 수 있습니다. 이 방법은 숫자 데이터와 결합 될 수있는 명목 (정성) 및 서수 (예를 들어, 리 커트 유형) 데이터를 분석하는 데 특히 적합합니다. SPSS의 Categories 모듈의 CATPCA 프로그램이 분석에 사용되지만 방법 설명은 다른 소프트웨어 패키지로 쉽게 일반화 될 수 있습니다.
다른 사람의 게시물에 댓글을 달 수있는 권한을 아직 얻지 못했기 때문에 별도의 답변으로 댓글을 추가하고 있습니다.
@Martin F가 언급 한 내용을 계속하면서 최근에는 비선형 PCA를 발견했습니다. 데이터가 희박 해지면서 연속 변수가 서수 변수의 분포에 접근 할 때 가능한 대안으로 비선형 PCA를 조사했습니다 (변수의 작은 대립 유전자 빈도가 점점 낮아지고 왼쪽에있을 때 유전학에서 많이 발생합니다) 연속 변수의 분포를 실제로 정당화 할 수없는 매우 적은 수의 수를 가지므로 순서 변수 또는 범주 형 변수를 만들어 분포 가정을 완화해야합니다.) 비선형 PCA는 이러한 조건을 모두 처리 할 수 있습니다. 유전 학부의 통계학 마에스트로와 합의에 따르면 비선형 PCA는 자주 사용되지 않으며 이러한 PCA의 동작은 아직 광범위하게 테스트되지 않았습니다 (유전학 분야 만 언급 한 것일 수 있으므로 소금 알갱이로 가져 가십시오). 실제로 그것은 매혹적인 옵션입니다. 토론에 2cents (다행히 관련성이 있음)를 추가했으면합니다.
이러한 문제에 대해 최근에 개발 된 접근 방식이 있습니다 : Generalized Low Rank Models .
이 기술을 사용하는 논문 중 하나를 데이터 프레임에서 PCA 라고도 합니다.
PCA는 다음과 같이 포즈를 취할 수 있습니다.