주성분 분석을 연속 변수와 범주 변수가 혼합 된 데이터 세트에 적용 할 수 있습니까?


147

연속 데이터와 범주 데이터가 모두있는 데이터 세트가 있습니다. PCA를 사용하여 분석 중이며 범주 변수를 분석의 일부로 포함시키는 것이 좋은지 궁금합니다. PCA는 연속 변수에만 적용 할 수 있다는 것을 이해합니다. 그 맞습니까? 범주 형 데이터에 사용할 수없는 경우 분석에 어떤 대안이 있습니까?



ResearchGate에 관한 토론이 있습니다 : researchgate.net/post/Should_I_use_PCA_with_categorical_data
GoingMyWay

답변:


87

이진 데이터에 적용되는 PCA는 다중 대응 일치 분석 에서 얻은 결과와 비교할 수있는 결과를 산출하지만 (요소 점수와 고유 값은 선형 적으로 관련됨) 혼합 데이터 유형, 즉 혼합 데이터에 대한 다중 요인 분석을 처리하는 데 더 적합한 기술이 있습니다. FactoMineR R 패키지 ( AFDM()). 변수를 설명 적 속성의 구조화 된 부분 집합으로 간주 할 수있는 경우 다중 요인 분석 ( MFA())도 옵션입니다.

범주 형 변수의 문제점은 요인 공간에서 변수 범주와 개인 간의 거리를 나타내는 적절한 방법을 찾는 것입니다. 이 문제를 극복하기 위해 최적의 스케일링으로 각 변수의 명목, 순서, 다항식 또는 숫자에 관계없이 비선형 변환을 찾을 수 있습니다. 이것은 R의 최적 스케일링을위한 Gifi 방법 : 패키지 homals에 잘 설명 되어 있으며 해당 R 패키지 homals 에서 구현을 사용할 수 있습니다 .


2
chl, FADM에 대한 포인터 감사합니다. 그래도 궁금합니다. FADM을 데이터 세트 (obj <-FADM (x))에 적용하면 obj $ ind $ coord 를 통해 변환 된 데이터 세트에 쉽게 액세스 할 수 있습니다 . 그러나 동일한 변환을 다른 데이터 세트 에 적용하려면 어떻게해야합니까? (예를 들어 기차 세트가 있고이 기차 세트에서 "주요 구성 요소"를 찾은 다음 해당 "주요 구성 요소"를 통해 테스트 세트를보고자하는 경우에 필요합니다. 이 문서는 실제로 명확하지 않으며 기능이 기반으로하는 종이는 프랑스어로되어 있습니다.
casandra

에 관해서 : Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysis, 우리는 명목 범주 형 변수 (N 카디널리티로 말하자)를 (N-1) 더미 이진 모음으로 변환 한 다음이 데이터에 대해 PCA를 수행 할 수 없습니까? (보다 적절한 기술이 있다는 것을 이해합니다)
Zhubarb

31

Google 검색 "이산 변수에 대한 pca"는 S. Kolenikov (@StasK)와 G. Angeles의 훌륭한 개요 를 제공합니다 . chl 답변에 추가하기 위해 PC 분석은 실제로 공분산 행렬의 고유 벡터 분석입니다. 따라서 문제는 "올바른"공분산 행렬을 계산하는 방법입니다. 접근 방법 중 하나는 다항식 상관 관계 를 사용하는 것 입니다.


link.It 대 (+1) 덕분 (참조, 예를 들어 이종의 상관 행렬을 고려하는 것도 가능하다 hetcor()로부터 polycor의 패키지). VC 매트릭스가 SDP 인 경우, 대부분 요인 분석의 정신으로 작업을 수행해야합니다. 명목 변수는 더미 코딩 될 수 있습니다.
chl

@StasK, kudos :)이 대화가 유용하다고 생각했을 때, 그렇지 않으면 gooogle 검색에서 최상위에 있지 않을 것입니다. 이 질문은 때때로 팝업되므로 커뮤니티 블로그에 대한 블로그 게시물을 원하십니까?
mpiktas

@ StasK, 나는 개요의 저자를 언급하기 위해 게시물을 편집했습니다. 내 첫 번째 의도는 Google 검색에서 좋은 답변을 얻을 수 있음을 보여 주었으므로 여기에 명시 적으로 요청할 필요가 없습니다. 그러나 이것은 인터넷의 변동성 때문에 저자를 인용하지 않는 변명은 아닙니다.
mpiktas

1
@mpiktas 감사합니다. :이 작품에서 생산 경제학자위한 진정한 기사가 있었다 dx.doi.org/10.1111/j.1475-4991.2008.00309.x는 편집자가 나는의 작업 글을 읽는 것이 좋습니다 너무 많이 잘라달라고 요청하지만, 정보를 발간하고 출판 된 정보를 인용하십시오.
StasK

9

Linting & Kooij, 2012 "CATPCA를 사용한 비선형 주성분 분석 : 튜토리얼 ", Journal of Personality Assessment ; 94 (1).

요약

이 기사는 Rorschach Inkblot Test에 의한 성격 평가에 대한 실제 데이터를 분석하는 과정을 통해 독자를 체계적으로 안내하는 비선형 주성분 분석 (NLPCA)을위한 튜토리얼로 설정되었습니다. NLPCA는 선형 PCA에 대한보다 유연한 대안으로, 다른 유형의 측정 수준으로 비선형 적으로 관련된 변수의 분석을 처리 할 수 ​​있습니다. 이 방법은 숫자 데이터와 결합 될 수있는 명목 (정성) 및 서수 (예를 들어, 리 커트 유형) 데이터를 분석하는 데 특히 적합합니다. SPSS의 Categories 모듈의 CATPCA 프로그램이 분석에 사용되지만 방법 설명은 다른 소프트웨어 패키지로 쉽게 일반화 될 수 있습니다.


4

다른 사람의 게시물에 댓글을 달 수있는 권한을 아직 얻지 못했기 때문에 별도의 답변으로 댓글을 추가하고 있습니다.

@Martin F가 언급 한 내용을 계속하면서 최근에는 비선형 PCA를 발견했습니다. 데이터가 희박 해지면서 연속 변수가 서수 변수의 분포에 접근 할 때 가능한 대안으로 비선형 PCA를 조사했습니다 (변수의 작은 대립 유전자 빈도가 점점 낮아지고 왼쪽에있을 때 유전학에서 많이 발생합니다) 연속 변수의 분포를 실제로 정당화 할 수없는 매우 적은 수의 수를 가지므로 순서 변수 또는 범주 형 변수를 만들어 분포 가정을 완화해야합니다.) 비선형 PCA는 이러한 조건을 모두 처리 할 수 ​​있습니다. 유전 학부의 통계학 마에스트로와 합의에 따르면 비선형 PCA는 자주 사용되지 않으며 이러한 PCA의 동작은 아직 광범위하게 테스트되지 않았습니다 (유전학 분야 만 언급 한 것일 수 있으므로 소금 알갱이로 가져 가십시오). 실제로 그것은 매혹적인 옵션입니다. 토론에 2cents (다행히 관련성이 있음)를 추가했으면합니다.


답변 환영합니다, 만다 르 CATPCA 방법 또는 다른 비선형 PCA에 의한 비선형 PCA를 언급하고 있습니까? 에 대한 또한 참고 이진 a를 이분법 적 규모로 ... 이분법이 아닌 정량화 할 수 없기 때문에 쓸모 또는 사소한, CATPCA는 말이며, 변수!
ttnphns

당신은 @ttnphns. 이진 변수에 대한 이진 변수에 대한 귀하의 의견에 동의합니다. 모든 가정은 중요하지 않습니다. 그렇지 않으면 실제로 "비선형 PCA 소개"( linkaccess.leidenuniv.nl/bitstream/handle/1887/12386/… ) 에서 책 장을 참조하고있었습니다 . 주로 CATPCA 및 SAS의 PRINQUAL 패키지를 나타냅니다.
Mandar

2

이러한 문제에 대해 최근에 개발 된 접근 방식이 있습니다 : Generalized Low Rank Models .

이 기술을 사용하는 논문 중 하나를 데이터 프레임에서 PCA 라고도 합니다.


PCA는 다음과 같이 포즈를 취할 수 있습니다.

케이엑스^케이와이^케이

엑스^,와이^에이아르 자형나는엑스,와이엑스와이에프2

에프2


이것은 새로운 아이디어보다 재창조처럼 들립니다. gifi를 검색하십시오!
kjetil b halvorsen

당신은 정확히 맞지 않습니다. GLRM은 일반화 된 것 같습니다 (실제로 연결된 종이는 gifi 패키지 용지를 인용합니다).
Jakub Bartczuk

1

PCAmixdata#Rstats 패키지 :

정량적 및 정 성적 변수의 혼합에 대한 주요 성분 분석, 직교 회전 및 다중 요인 분석을 구현합니다.

비 네트의 예는 연속 출력과 범주 출력 모두에 대한 결과를 보여줍니다.

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.