주요 성분 분석 (PCA)의 품질을 평가하기위한 좋은 지표는 무엇입니까?
데이터 세트에서이 알고리즘을 수행했습니다. 저의 목표는 기능의 수를 줄이는 것이 었습니다 (정보는 매우 중복되었습니다). 분산의 백분율이 유지하는 정보의 양을 나타내는 좋은 지표라는 것을 알고 있습니다. 중복 정보를 제거하고 그러한 정보를 '손실'하지 않았는지 확인하는 데 사용할 수있는 다른 정보 메트릭이 있습니까?
주요 성분 분석 (PCA)의 품질을 평가하기위한 좋은 지표는 무엇입니까?
데이터 세트에서이 알고리즘을 수행했습니다. 저의 목표는 기능의 수를 줄이는 것이 었습니다 (정보는 매우 중복되었습니다). 분산의 백분율이 유지하는 정보의 양을 나타내는 좋은 지표라는 것을 알고 있습니다. 중복 정보를 제거하고 그러한 정보를 '손실'하지 않았는지 확인하는 데 사용할 수있는 다른 정보 메트릭이 있습니까?
답변:
이 질문의 일부는 누적 백분율 분산 (CPV) 및 이와 유사한 스 크리 플롯 방식 외에 다른 메트릭이 존재하는지 여부입니다. 이에 대한 대답은 그렇습니다 .
일부 옵션에 대한 훌륭한 논문은 Valle 1999입니다.
주요 성분의 수의 선택 : 다른 방법과 비교하여 재구성 오차 기준의 변화
Sergio Valle, Weihua Li 및 S. Joe Qin, 산업 및 화학 화학 연구 1999 38 (11), 4389-4401
CPV는 물론 병렬 분석, 교차 유효성 검사, 재구성 오류의 편차 (VRE), 정보 기준 기반 방법 등을 처리합니다. VRE를 비교하고 사용한 후에 종이의 권장 사항을 따를 수 있지만 PRESS를 기반으로 한 교차 유효성 검사는 내 경험에서도 잘 작동하며 그 결과도 좋습니다. 필자의 경험에 따르면 CPV는 편리하고 쉬우 며 적절한 작업을 수행하지만 일반적으로이 두 가지 방법이 더 좋습니다.
데이터에 대해 더 많이 알고 있다면 PCA 모델이 얼마나 좋은지 평가하는 다른 방법이 있습니다. 한 가지 방법은 추정 된 PCA 로딩을 알고있는 경우 실제 시뮬레이션과 비교하는 것입니다 (시뮬레이션에서). 이것은 실제 하중에 대한 추정 하중의 바이어스를 계산하여 수행 할 수 있습니다. 편견이 클수록 모델이 나빠집니다. 이를 수행하는 방법에 대해이 방법을 사용하여 방법을 비교할 수있는 이 백서를 확인할 수 있습니다 . 실제 PCA로드를 모르는 실제 데이터 케이스에서는 사용할 수 없습니다. 이는 외부 관측치의 영향으로 인해 모델의 편향보다 제거한 구성 요소 수에 대해서는 적지 않지만 여전히 모델 품질 지표로 사용됩니다.
다음과 같은 정보 이론적 기준에 기반한 측정법도 있습니다
리사 넨의 MDL (및 변형)