19 개의 변수로 구성된 1000 개 이상의 샘플 데이터 세트가 있습니다. 내 목표는 다른 18 개의 변수 (이진 및 연속)를 기반으로 이진 변수를 예측하는 것입니다. 나는 예측 변수 중 6 개가 이진 반응과 관련되어 있다고 확신하지만 데이터 세트를 추가로 분석하고 누락 될 수있는 다른 연관 또는 구조를 찾고 싶습니다. 이를 위해 PCA와 클러스터링을 사용하기로 결정했습니다.
정규화 된 데이터에서 PCA를 실행할 때 분산의 85 %를 유지하려면 11 개의 구성 요소를 유지해야합니다. 쌍 그림을 그려서 나는 이것을 얻는다 :
다음에 무엇이 있는지 잘 모르겠습니다 ... pca에 중요한 패턴이 보이지 않으며 이것이 의미하는 바가 무엇인지 궁금합니다. 일부 변수가 이진이라는 사실에 기인했을 수 있습니다. 6 개의 클러스터로 클러스터링 알고리즘을 실행하면 다음과 같은 결과를 얻습니다. 일부 얼룩은 눈에 띄는 것처럼 보이지만 (노란색).
아시다시피, 저는 PCA의 전문가는 아니지만 일부 자습서와 높은 차원의 공간에서 구조를 엿볼 수있는 방법을 보았습니다. 유명한 MNIST 숫자 (또는 IRIS) 데이터 세트를 사용하면 훌륭하게 작동합니다. 내 질문은 PCA를 이해하기 위해 지금 무엇을해야합니까? 클러스터링은 유용한 항목을 찾지 못하는 것 같습니다. PCA에 패턴이 없거나 PCA 데이터에서 패턴을 찾기 위해 다음에 무엇을 시도해야하는지 어떻게 알 수 있습니까?