군집 분석을 수행하려면 변수 수를 줄여야합니다. 내 변수는 서로 밀접하게 관련되어 있으므로 요인 분석 PCA (주성분 분석) 를 수행 하는 것으로 생각했습니다 . 그러나 결과 점수를 사용하면 클러스터가 정확하지 않습니다 (문헌의 이전 분류와 비교).
질문:
회전 행렬을 사용하여 각 구성 요소 / 인자에 대해 가장 큰 부하를 갖는 변수를 선택하고 클러스터링에 이러한 변수 만 사용할 수 있습니까?
참고 문헌 목록도 도움이 될 것입니다.
최신 정보:
몇 가지 설명 :
내 목표 : SPSS에 의해 2 단계 알고리즘으로 클러스터 분석을 실행해야하지만 변수는 독립적이지 않으므로 일부를 버리는 것에 대해 생각했습니다.
내 데이터 세트 : 100,000 사례의 15 개의 스칼라 매개 변수 (내 변수)를 작업 중입니다. 일부 변수는 서로 밀접하게 연관되어 있습니다 ( Pearson)
내 의심 : 독립적 인 변수 만 필요하기 때문에 주요 구성 요소 분석 (죄송합니다. 원래 질문에서 실수로 요인 분석에 대해 잘못 이야기했습니다)을 생각하고 각 구성 요소에 가장 큰 하중을 갖는 변수 만 선택했습니다. PCA 프로세스가 임의의 단계를 제시한다는 것을 알고 있지만,이 선택은 실제로 변수를 선택하기 위해 IT Jolliffe (1972 및 2002)가 제안한 " 방법 B4 " 와 유사하고 1999 년 JR King & DA Jackson이 제안한 방법 과 유사하다는 것을 알았습니다. .
그래서 나는 이런 식으로 독립 변수의 하위 그룹을 선택하려고했습니다. 그런 다음 그룹을 사용하여 다른 클러스터 분석을 실행하고 결과를 비교합니다.