PCA를 사용하여 군집 분석을위한 변수 선택을 수행 할 수 있습니까?


12

군집 분석을 수행하려면 변수 수를 줄여야합니다. 내 변수는 서로 밀접하게 관련되어 있으므로 요인 분석 PCA (주성분 분석) 를 수행 하는 것으로 생각했습니다 . 그러나 결과 점수를 사용하면 클러스터가 정확하지 않습니다 (문헌의 이전 분류와 비교).

질문:

회전 행렬을 사용하여 각 구성 요소 / 인자에 대해 가장 큰 부하를 갖는 변수를 선택하고 클러스터링에 이러한 변수 만 사용할 수 있습니까?

참고 문헌 목록도 도움이 될 것입니다.

최신 정보:

몇 가지 설명 :

  • 내 목표 : SPSS에 의해 2 단계 알고리즘으로 클러스터 분석을 실행해야하지만 변수는 독립적이지 않으므로 일부를 버리는 것에 대해 생각했습니다.

  • 내 데이터 세트 : 100,000 사례의 15 개의 스칼라 매개 변수 (내 변수)를 작업 중입니다. 일부 변수는 서로 밀접하게 연관되어 있습니다 ( Pearson)>0.9

  • 내 의심 : 독립적 인 변수 만 필요하기 때문에 주요 구성 요소 분석 (죄송합니다. 원래 질문에서 실수로 요인 분석에 대해 잘못 이야기했습니다)을 생각하고 각 구성 요소에 가장 큰 하중을 갖는 변수 만 선택했습니다. PCA 프로세스가 임의의 단계를 제시한다는 것을 알고 있지만,이 선택은 실제로 변수를 선택하기 위해 IT Jolliffe (1972 및 2002)가 제안한 " 방법 B4 " 와 유사하고 1999 년 JR King & DA Jackson이 제안한 방법 과 유사하다는 것을 알았습니다. .

    그래서 나는 이런 식으로 독립 변수의 하위 그룹을 선택하려고했습니다. 그런 다음 그룹을 사용하여 다른 클러스터 분석을 실행하고 결과를 비교합니다.


1
정답을 알고 있다면 왜 분석을해야합니까?
StasK

1
또 다른 참고로, 왜 클러스터 분석을 위해 변수 수를 줄여야한다고 생각하십니까? 현대 클러스터 분석 도구에는 입력 변수 수에 대한 제한이 없다고 생각합니다. 물론 120 개 항목으로 테스트를하면 문제가 복잡해집니다.
StasK


이 Q의 군집 분석 측면을 추가하면 개방 상태를 유지하기에 충분히 뚜렷한 것으로 보입니다.
gung-복직 모니카

나보다 복제본에 더 엄격한 기준을 적용하는 것 같습니다, @gung; 아마도 당신이 옳을 것입니다 (투표도 이것에 잘 어울리지 않습니다). 그러나이 특별한 경우 OP는 내가 제안한 스레드에서 다루는 가장 간단한 PCA 기반 기능 선택 (자신의 업데이트에서 명확함)에 대해 묻고있었습니다. 반면 StasK는 클러스터링에 관한 흥미로운 답변을 여기에 올렸습니다.
amoeba는 Reinstate Monica가

답변:


7

내 관습과 마찬가지로 한 걸음 물러서서 무엇을하려고하는지 정확하게 묻습니다. 요인 분석은 잠재 변수를 찾기 위해 설계되었습니다. 잠재 변수를 찾아서 묶으려면 올바른 작업을 수행하십시오. 그러나 단순히 변수 수를 줄이고 싶다고 말하면 대신 주성분 분석을 제안합니다.

그러나 이들 중 하나를 사용하면 새 변수에 대한 군집 분석을 해석해야하며, 새 변수는 단순히 기존 변수에 대한 가중치 합계입니다.

몇 개의 변수가 있습니까? 그들은 얼마나 관련이 있습니까? 너무 많고 상관 관계가 매우 높은 경우 매우 높은 수의 모든 상관 관계를 찾고 각 쌍에서 하나의 변수를 임의로 삭제할 수 있습니다. 이것은 변수의 수를 줄이고 변수를 그대로 둡니다.

@StasK에게이 작업을 수행 할 필요성에 대해 에코하고 @ rolando2가 이전에 발견 된 것과 다른 것을 찾는 데 유용하다는 점을 설명하겠습니다. 내가 가장 좋아하는 대학원 학교 교수는 "놀라지 않으면 아무것도 배우지 않았다"고 말했었습니다.


1
우선, 미안합니다. 실제로 요인 분석이 아닌 주요 구성 요소 분석을 언급하고 있습니다. 또한, 내가 유지해야 할 마녀 상관 변수를 임의로 선택하지 않는 방법을 찾고있었습니다. 위의 문제에 대한 정보를 더 추가합니다. 다시 한 번 감사드립니다
ko.

5

요인 분석과 군집 분석을 동시에 수행하는 방법은 구조 방정식 혼합 모델을 사용하는 것입니다. 이 모델에서는 각 클러스터에 대해 별도의 모델 (이 경우 요인 모델)이 있다고 가정합니다. 공분산 분석과 함께 평균 분석이 필요하고 일반 바닐라 계수 분석에서보다 더 큰 정도의 식별에 관심이 있어야합니다. SEM 측에서 접근 한 아이디어는 Jedidi et. 알. (1997) , Adrian Raftery의 모델 기반 클러스터링 에서 클러스터링 측면에서 . 이 유형의 분석은 분명히 Mplus 에서 사용할 수 있습니다 .


1
특히 참조에 대한 입력에 감사드립니다. 그러나 요인 분석을 잘못 참조했습니다. 실제로 변수를 독립 변수의 하위 그룹으로 줄이기 위해 기본 구성 요소에 대해 생각하고있었습니다. 내 실수
ko.

2

나는 그것이 "정확성"의 문제가 순수하고 단순하다고 생각하지 않지만, 그것이 당신이하고자하는 것을 성취 할 것인지의 여부입니다. 설명하는 접근 방식은 각 요인을 나타내는 하나의 지표 만 사용하므로 특정 요인에 따라 군집화됩니다. 이러한 각 지표는 근본적인 잠재 요소에 대한 불완전한 스탠드 인으로 나타납니다. 하나의 문제입니다.

또 다른 문제는 저 (및 다른 많은 사람들)가 말한 것처럼 요인 분석 자체 는 누락 된 데이터를 처리하는 방법, 추출 할 요소 수, 추출 방법, 회전 여부 및 방법 등을 포함한 주관적인 결정으로 가득 하다는 것 입니다. 의 위에. 그것은 (나는 당신이 빠른, 소프트웨어의 기본 방식으로 추출한 수있는 요인 것을 명확하지 수 있습니다 그래서 생각 이 암시 한이) 어떤 의미에서 "최고"입니다.

그렇다면 데이터의 주제를 특성화하는 가장 좋은 방법으로 논쟁의 여지가있는 여러 가지 요소를 사용했을 수 있습니다. 이러한 입력 변수로 인한 클러스터가 가장 유익하거나 가장 뚜렷한 것으로 기대하지는 않습니다.

또 다른 참고로, 다른 연구원들이 찾은 것과 일치하지 않는 클러스터 멤버쉽 / 프로파일을 갖는 것이 문제라고 생각하는 것이 흥미로워 보입니다. 때때로 불확실한 발견은 매우 건강 할 수 있습니다!


대단히 감사합니다
.

0

귀하의 경우에 일어날 수있는 일은 요인 분석에서 추출 된 요인이 원래 변수에서 양수 및 음수를 보상한다는 것입니다. 이는 클러스터링의 목적인 차별 화성을 감소시킵니다.

추출 된 각 인자를 2로 나눌 수 있습니까? 하나는 양의 하중을 갖는 것이고 다른 하나는 음의 하중을 갖는 것입니까?

각 요인에 대한 각 사례에 대한 요인 점수를 양수 및 음수 점수로 바꾸고이 새로운 점수 세트에서 클러스터링을 시도하십시오.

이것이 효과가 있다면 줄을 서십시오.


0

높은 값과 낮은 값을 모두 스캔하고 모든 변수를 요인에 남겨 둘 수 있습니다. 이런 식으로 요인을 줄일 필요가 없습니다. 하중 2의 부호를 기준으로 요인 1 (예를 들어)을 특정 방식으로 분할하면 요인 2에서 부호가 상당히 다를 수 있습니다. 그런 다음 요소 1과 요소 2를 다르게 잘라내겠습니까? 혼란스러운 것 같습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.