구성 요소의 수를 선택하기 위해 PCA 적합의 품질을 평가하기위한 좋은 메트릭은 무엇입니까?

10

주요 성분 분석 (PCA)의 품질을 평가하기위한 좋은 지표는 무엇입니까?

데이터 세트에서이 알고리즘을 수행했습니다. 저의 목표는 기능의 수를 줄이는 것이 었습니다 (정보는 매우 중복되었습니다). 분산의 백분율이 유지하는 정보의 양을 나타내는 좋은 지표라는 것을 알고 있습니다. 중복 정보를 제거하고 그러한 정보를 '손실'하지 않았는지 확인하는 데 사용할 수있는 다른 정보 메트릭이 있습니까?

— 큰 나무
소스

3

엄밀히 말하면, 초기 데이터가 완전히 동일 선형이 아닌 한 "중복"정보는 없습니다. 일반적으로 분산의 백분율이 유지됩니다 ( "분산의 90 %를 차지하는 처음 다섯 가지 주요 구성 요소를 사용했습니다"). 대안을 보는 데 관심이 있습니다.

— Stephan Kolassa

태그 중 하나가 정보 이론이기 때문에 : PCA가 작동하는지 여부를 평가하는 간접적 인 방법은 정보 이론이 특정 차원 축소에 대해 정보 손실이 적다는 가정을 확인하는 것입니다. Wiki는 데이터가 가우스 신호와 가우스 잡음의 합일 때와 같다고 말합니다. en.wikipedia.org/wiki/…

— CloseToC

17

이 질문의 일부는 누적 백분율 분산 (CPV) 및 이와 유사한 스 크리 플롯 방식 외에 다른 메트릭이 존재하는지 여부입니다. 이에 대한 대답은 그렇습니다 .

일부 옵션에 대한 훌륭한 논문은 Valle 1999입니다.

주요 성분의 수의 선택 : 다른 방법과 비교하여 재구성 오차 기준의 변화

Sergio Valle, Weihua Li 및 S. Joe Qin, 산업 및 화학 화학 연구 1999 38 (11), 4389-4401

CPV는 물론 병렬 분석, 교차 유효성 검사, 재구성 오류의 편차 (VRE), 정보 기준 기반 방법 등을 처리합니다. VRE를 비교하고 사용한 후에 종이의 권장 사항을 따를 수 있지만 PRESS를 기반으로 한 교차 유효성 검사는 내 경험에서도 잘 작동하며 그 결과도 좋습니다. 필자의 경험에 따르면 CPV는 편리하고 쉬우 며 적절한 작업을 수행하지만 일반적으로이 두 가지 방법이 더 좋습니다.

데이터에 대해 더 많이 알고 있다면 PCA 모델이 얼마나 좋은지 평가하는 다른 방법이 있습니다. 한 가지 방법은 추정 된 PCA 로딩을 알고있는 경우 실제 시뮬레이션과 비교하는 것입니다 (시뮬레이션에서). 이것은 실제 하중에 대한 추정 하중의 바이어스를 계산하여 수행 할 수 있습니다. 편견이 클수록 모델이 나빠집니다. 이를 수행하는 방법에 대해이 방법을 사용하여 방법을 비교할 수있는 이 백서를 확인할 수 있습니다 . 실제 PCA로드를 모르는 실제 데이터 케이스에서는 사용할 수 없습니다. 이는 외부 관측치의 영향으로 인해 모델의 편향보다 제거한 구성 요소 수에 대해서는 적지 않지만 여전히 모델 품질 지표로 사용됩니다.

— 데 스킬 14
소스

4

링크 발레, 리튬과 진 종이

— Zhubarb

3

다음과 같은 정보 이론적 기준에 기반한 측정법도 있습니다

리사 넨의 MDL (및 변형)

— 니 코스 엠
소스

@user : 45382 네, 다른 것입니다. Zhubarb가 링크 한 논문에도 언급되어있다.

— Deathkill14

@ Deathkill14 올바른 나는 논문을 읽고, 정보 이론적 조치가 (실제로 좋은 대안으로 언급 됨)

— Nikos M.

MDL, MML 및 베이지안에 대한 훌륭한 이론 논문 : Vitany & Li, 이상적인 MDL 및 베이지안과의 관계 citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . 또한 AIC 및 BIC와 같은 다른 모델 선택 방법은 효과적으로 MDL을 구현합니다.

— ggll