PCA 결과에 패턴이 없음을 어떻게 알 수 있습니까?


9

19 개의 변수로 구성된 1000 개 이상의 샘플 데이터 세트가 있습니다. 내 목표는 다른 18 개의 변수 (이진 및 연속)를 기반으로 이진 변수를 예측하는 것입니다. 나는 예측 변수 중 6 개가 이진 반응과 관련되어 있다고 확신하지만 데이터 세트를 추가로 분석하고 누락 될 수있는 다른 연관 또는 구조를 찾고 싶습니다. 이를 위해 PCA와 클러스터링을 사용하기로 결정했습니다.

정규화 된 데이터에서 PCA를 실행할 때 분산의 85 %를 유지하려면 11 개의 구성 요소를 유지해야합니다. 여기에 이미지 설명을 입력하십시오 쌍 그림을 그려서 나는 이것을 얻는다 : 여기에 이미지 설명을 입력하십시오

다음에 무엇이 있는지 잘 모르겠습니다 ... pca에 중요한 패턴이 보이지 않으며 이것이 의미하는 바가 무엇인지 궁금합니다. 일부 변수가 이진이라는 사실에 기인했을 수 있습니다. 6 개의 클러스터로 클러스터링 알고리즘을 실행하면 다음과 같은 결과를 얻습니다. 일부 얼룩은 눈에 띄는 것처럼 보이지만 (노란색). 여기에 이미지 설명을 입력하십시오

아시다시피, 저는 PCA의 전문가는 아니지만 일부 자습서와 높은 차원의 공간에서 구조를 엿볼 수있는 방법을 보았습니다. 유명한 MNIST 숫자 (또는 IRIS) 데이터 세트를 사용하면 훌륭하게 작동합니다. 내 질문은 PCA를 이해하기 위해 지금 무엇을해야합니까? 클러스터링은 유용한 항목을 찾지 못하는 것 같습니다. PCA에 패턴이 없거나 PCA 데이터에서 패턴을 찾기 위해 다음에 무엇을 시도해야하는지 어떻게 알 수 있습니까?


예측 변수를 찾기 위해 PCA를 수행하는 이유는 무엇입니까? 왜 다른 방법을 사용하지 않습니까? 예를 들어 당신은 로지스틱 레지스터에 그것들을 모두 포함시킬 수 있고, LASSO를 사용할 수 있고, 트리 모델을 만들 수 있고, 자루에 넣기, 부스팅 등이 있습니다.
Peter Flom

PCA가 공개하기에 좋은 "패턴"이란 무엇입니까?
ttnphns

내가 할 노력하고있어 @ttnphns 내가 예측하기 위해 노력하고있어 진 응답의 결과를 설명하는 더 나은에 공통점이있을 수 있습니다 관찰의 일부 하위 그룹을 찾는 것입니다 (이 부분적으로 영감 된 everydayanalytics.ca/2014/ 06 /… ). 또한 홍채 데이터 세트에서 pca 및 클러스터링을 사용하면 이미 클러스터 수를 알고 있기 때문에 종 ( scikit-learn.org/stable/auto_examples/decomposition/… ) 을 분리하는 것이 유용 합니다.
mickkk

@PeterFlom 나는 이미 로지스틱 회귀와 임의의 포리스트 모델을 실행했으며 제대로 수행하고 있지만 데이터를 더 조사하고 싶습니다.
mickkk

답변:


7

분산도는 PCA가 무의미하다고 설명합니다. 11/18은 61 %이므로 분산의 85 %를 설명하려면 변수의 61 %가 필요합니다. PCA의 경우에는 그렇지 않습니다. 3-5의 18 개 요인이 95 % 정도의 분산을 설명 할 때 PCA를 사용합니다.

업데이트 : PC 수에 의해 설명되는 누적 누적 백분율의 플롯을 살펴보십시오. 이것은 금리 용어 구조 모델링 필드에서 비롯된 것입니다. 3 개의 성분이 총 분산의 99 % 이상을 설명하는 방법을 볼 수 있습니다. 이것은 PCA 광고에 대한 구성 예처럼 보일 수 있습니다 :) 그러나 이것은 실제입니다. 금리 테너는 그와 밀접한 관련이 있으므로 PCA가이 애플리케이션에서 매우 자연스러워집니다. 수십 개의 테너를 처리하는 대신 3 개의 구성 요소 만 처리합니다.

여기에 이미지 설명을 입력하십시오


그것이 내가 처음에 의심했던 것입니다. 그런 대담한 진술을 할 PCA에 대해 많이 알지 못했기 때문에 직접 지적하지 않았습니다. 구성 요소의 x % 이상이 필요할 때 PCA가 별 도움이되지 않는다고 말하는 것이 안전합니까? 필자가 보았던 응용 프로그램의 예에서 대부분의 차이를 설명하는 구성 요소는 거의 없습니다.
mickkk

@mickkk, 확실한 규칙은 없습니다. 나에게 표시는 볼록 함입니다. PC 수에 의해 설명 된 총 분산의 누적 백분율로 계산하면 매우 오목한 그래프가 표시됩니다. 선형에 가까웠을 것입니다. 각 구성 요소는 데이터에 대해 대략 동일한 정보를 가지고있는 것 같습니다.이 경우 원래 데이터 대신 PCA를 사용하는 이유는 무엇입니까?
Aksakal

새로운 예제를 사용한 편집은 매우 도움이되었습니다.
mickkk

5

당신이 경우 샘플 만 예측을 그냥 모델의 모든 예측을 사용하는 것이 꽤 합리적인 것입니다. 이 경우 PCA 단계가 불필요 할 수 있습니다.N>1000p=19

변수의 하위 집합 만 설명이 필요하다고 확신하는 경우 Elastic Net과 같은 희소 회귀 모델을 사용하면이를 설정하는 데 도움이 될 수 있습니다.

또한 혼합 유형 입력 (이진 대 실제, 다른 스케일 등의 CV 질문 참조 )을 사용하여 PCA 결과를 해석하는 것은 그리 간단하지 않으며 명확한 이유가 없으면 피할 수 있습니다.


4

가능한 한 간결하게 귀하의 질문을 해석하겠습니다. 그것이 당신의 의미를 바꾸는 지 알려주십시오.

나는 예측 변수 중 6 개가 이항 반응과 관련이 있다고 확신합니다. 그러나 pca에는 중요한 패턴이 보이지 않습니다.

짝짓기의 일관성 외에 "유의 한 패턴"도 보이지 않습니다. 그것들은 모두 대략 원형의 얼룩입니다. 당신이 기대했던 것이 궁금합니다. 페어 플로트의 일부 점 클러스터를 명확하게 분리합니까? 선형에 매우 가까운 몇 개의 음모?

11 가지 주요 구성 요소에서 캡처 된 얼룩 모양 쌍 벌점과 분산의 85 %에 불과한 PCA 결과는 이진 반응 예측에 충분한 약 6 개의 변수를 배제하지 않습니다.

이러한 상황을 상상해보십시오.

  1. PCA 결과에 따르면 분산의 99 %가 6 가지 주요 구성 요소에 의해 포착되었다고 가정하십시오.

    그것은 6 개의 예측 변수에 대한 직감을 지원하는 것처럼 보일 수 있습니다. 어쩌면 6 차원 공간에서 점을 매우 잘 분류하는 평면 또는 다른 표면을 정의하고 해당 표면을 이진 예측 자로 사용할 수 있습니다. 2 위로 데려다줍니다.

  2. 상위 6 개 주요 구성 요소에 다음과 같은 페어 플로트가 있다고 가정하십시오.

    쌍 그림에서 "패턴".

    그러나 임의의 이진 반응을 색으로 구분 해 봅시다

    "패턴"은 쓸모가 없습니다.

    6 개의 변수에서 거의 모든 (99 %) 분산을 포착 할 수 있지만 이진 반응을 예측하기 위해 공간 분리가 보장되지는 않습니다.

실제로 몇 개의 수치 임계 값 (6 차원 공간에 표면으로 표시 될 수 있음)이 필요할 수 있으며 이진 분류에 대한 점의 멤버 자격은 해당 점과 각 임계 값의 관계로 구성된 복잡한 조건식에 따라 달라질 수 있습니다. 그러나 이것은 바이너리 클래스가 어떻게 예측 될 수 있는지에 대한 예일뿐입니다. 표현, 훈련 및 예측을위한 수많은 데이터 구조와 방법이 있습니다. 티저입니다. 인용하자면

기계 학습 문제를 해결하는 데있어 가장 어려운 부분은 직무에 적합한 견적서를 찾는 것입니다.


1
웃는 얼굴은 상관 없기 때문에 실제로 좋습니다 ! 나는 그것을 좋아.
amoeba

@amoeba, 상관없는 PC에서 웃는 얼굴을 가질 수 있습니까?
Aksakal

@ Aksakal, 그렇습니다. 스마일 스 캐터 플롯은 제로 상관 관계를 보이지 않습니다. Kdbanman, 업데이트에 감사드립니다 (+1).
amoeba

@amoeba, 자, 선형 상관 관계 를 의미 합니다.
Aksakal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.