AIC (또는 BIC)를 사용한 PCA 모델 선택


12

AKA (Akaike Information Criterion)를 사용하여 PCA에서 추출 할 적절한 수의 요소를 선택하고 싶습니다. 유일한 문제는 매개 변수 수를 결정하는 방법을 잘 모르겠다는 것입니다.

행렬 고려하십시오. 여기서 은 변수 수를 나타내고 는 관측치 수를 나타냅니다. 예를 들어 입니다. 공분산 행렬이 대칭이므로 의 최대 우도 추정값은 AIC의 매개 변수 수를 동일하게 설정할 수 있습니다.X N T X N ( 0 , Σ ) Σ N ( N + 1 )T×NXNTXN(0,Σ)ΣN(N+1)2

또는, PCA에서, 첫 번째 추출 할 수있는 고유 벡터와 고유 값 , 그들에게 전화 와 다음 계산 여기서 는 평균 잔차 분산입니다. 내 계산으로, 당신은 할 경우 요소를, 당신 것 의 매개 변수 , 에서 매개 변수 , 그리고 의 매개 변수 .Σ β f Λ f Σ = β f Λ f β f + I σ 2 r σ 2 r f f Λ f N f β f 1 σ 2 rfΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1σr2

이 방법이 맞습니까? 요인의 수가 증가함에 따라 최대 우도 접근 방식보다 더 많은 매개 변수를 유발하는 것처럼 보입니다 .N


1
Nf 는 매개 변수를 능가합니다. 고유 벡터가 서로 직교한다는 사실 때문에 중복성이 있습니다.
whuber

10
첫 번째 고유 벡터에는 자유 매개 변수가 있습니다. 직교 조건은 파라미터 만을 필요로하여, 제 2 고유 벡터를 제 1 고유 직교 인 초 공간으로 제한한다 . 각각의 연속 고유 벡터는 앞의 고유 벡터보다 하나의 매개 변수가 덜 필요합니다. 의 한계에서 고유 벡터 당신 폐기 (지금 제로이기 때문에), 제공하는 = 매개 변수 토토에, 당신의 첫 번째 매개 변수와 계약 카운트. N - 1 N σ 2 r N + ( N - 1 ) + + 1 N ( N + 1 ) / 2NN1Nσr2N+(N1)++1N(N+1)/2
whuber

1
@ A.Donda 상황이 모호합니다. 또한 각 고유 값 의 다중성 을 나타내고이 다중도는 합산한다고 가정합니다 PCA가 직교 변환을 찾도록 허용하면 이를 결정하기위한 매개 변수. 그러나 각 고유 공간의 안정제는 차원 직교 그룹입니다따라서 각각 매개 변수 를 제거하고 매개 변수를 회전에 남겨 둡니다 . 고유 나머지 파라미터를 공급한다. N . N ( N - 1 ) / 2 N I .n1,n2,,ns,N.N(N1)/2ni.ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
우버

1
(이 계산의 적용이 의문의 여지가 있음을 추가해야합니다 .PCA 더 높은 다중성의 고유 값을 찾을 수 있더라도 모든 매개 변수를 사용합니다. 그리고 거의 모든 실제 데이터 세트에서 어쨌든 보다 큰 다중성을 얻지 못할 것 입니다.)N(N1)/21
whuber

1
@ whuber, 감사합니다! 내 질문은 고유 값에 대한 제약 조건에서 공분산 행렬을 추정하는 상황에서 동기가 부여됩니다.
A. Donda

답변:


5

PCA 의 확률 론적 관점에 관한 Minka ( PCA의 자동 차원 선택 , 2000)와 Tipping & Bishop ( Probabilistic Principal Component Analysis )의 작품은 관심있는 프레임 워크를 제공 할 수 있습니다. Minka의 작품은 로그에 대한 근사치를 제공합니다. 가능성 여기서 는 Laplace 근사법을 사용 하여 데이터 집합 의 잠재 차원입니다 . " Laplace 방법의 단순화는 BIC 근사입니다. "logp(D|k)kD

분명히 이것은 AIC에서 사용하는 정보 이론 기준 (KL- 분산)에 기반하지 않은 문제의 베이지안 관점을 취합니다.

원래의 "매개 변수 수 결정"질문과 관련하여 @whuber의 의견에 올바른 직감이 있다고 생각합니다.


나는 다양한 크기의 랜덤 매트릭스에서 AIC와 AICc를 가지고 놀았습니다. AICc가 더 잘 작동하는 것 같습니다. 그 참고 문헌은 좋아 보이지만 아직 소화 할 기회는 없었습니다.
John

6

PCA에서 "적절한"수의 구성 요소를 선택하는 것은 Horn의 병렬 분석 (PA)을 사용하여 우아하게 수행 할 수 있습니다. 논문에 따르면이 기준은 팔꿈치 기준 또는 카이저의 규칙과 같은 엄지 손가락 규칙보다 일관되게 우수합니다. R 패키지 "paran"은 몇 번의 마우스 클릭만으로 PA를 구현합니다.

물론 보유하고있는 구성 요소 수는 데이터 축소 목표에 따라 다릅니다. "의미있는"분산 만 유지하려면 PA가 최적의 감소를 제공합니다. 그러나 원본 데이터의 정보 손실을 최소화하려면 95 % 설명 분산을 포괄 할 수있는 충분한 구성 요소를 유지해야합니다. 이는 고차원 데이터 세트의 경우 차원 축소가 여전히 상당하지만 PA보다 훨씬 많은 구성 요소를 유지합니다.

"모델 선택"문제로서 PCA에 대한 마지막 참고 사항. 피터의 대답에 전적으로 동의하지 않습니다. Sparse PCA, Sparse Probabilistic PCA 또는 ScotLASS와 같이 PCA를 회귀 유형 문제로 재구성 한 여러 논문이 있습니다. 이러한 "모델 기반"PCA 솔루션에서 로딩은 적절한 페널티 조건으로 0으로 설정할 수있는 매개 변수입니다. 아마도이 맥락에서 고려중인 모델에 대한 AIC 또는 BIC 유형 통계를 계산할 수도 있습니다.

이 방법에는 이론적으로 예를 들어 PC1이 무제한이고 PC2에 모든 로딩이 0으로 설정된 모델과 비교하여 두 개의 PC가 무제한 (모든 로딩이 0이 아닌) 인 모델이 포함될 수 있습니다. 이는 PC2의 중복 여부를 유추하는 것과 같습니다. 전체적으로.

참고 문헌 (PA) :

  • Dinno, A. (2012). paran : 주요 구성 요소 / 인자에 대한 Horn의 테스트. R 패키지 버전 1.5.1. http://CRAN.R-project.org/package=paran
  • Horn JL 1965. 요인 분석의 요인 수에 대한 이론적 근거 및 테스트. Psychometrika . 30 : 179–185
  • Hubbard, R. & Allen SJ (1987). 주성분 추출을위한 대체 방법의 실험적 비교. 비즈니스 연구 저널, 15 , 173-190.
  • Zwick, WR & Velicer, WF 1986. 보유 할 부품 수를 결정하기위한 5 가지 규칙 비교. 심리 게시판. 99 : 432–442

@BenM 사이트에 오신 것을 환영합니다. 당신의 대답에서, 나는 당신을 둘러싼 것이 좋을 것이라고 생각합니다 (귀하의 주장을 평가하기위한 기본 사항을 넘어서는 PCA에 대해서는 충분히 알지 못하지만). 한 가지 질문에, 당신은이 입장들이 잘 정립되어 있다는 것을 알고 있습니다. 관심있는 독자가 더 자세한 내용을 찾을 수있는 몇 가지 대표적인 간행물을 열거 할 수 있습니까?
gung-Monica Monica 복원

-1

AIC는 모델 선택을 위해 설계되었습니다. 이것은 실제로 모델 선택 문제가 아니며 다른 접근법을 사용하는 것이 좋습니다. 대안은 설명 된 특정 총 분산 비율 (예 : 75 %)을 지정하고 백분율이 75 %에 도달하면 중지합니다.


1
요인 수 (1 요인이있는 모형과 2가있는 모형 등)를 기준으로 다른 모형 중에서 선택하고 있습니다. 분산 비율의 문제점은 주로 관측치 수가 변수 개수보다 작은 경우 추가 고유 벡터 추정 비용을 무시한다는 것입니다. AIC는 확률 적 PCA 접근 방식에 잘 맞습니다.
John

3
마이클, 이것이 모델 선택 문제가 아닌지 정확하게 설명해 주 시겠습니까? 요한이 분명히 그것을 하나의 공식으로 만든 것 같습니다.
whuber

@whuber 통계 모델이란 무엇입니까? 변수 Y에서 분산의 x %를 나타내는 데 사용되는 주성분의 수를 결정하는 것은 모델을 선택하지 않는 것 같습니다. 주요 구성 요소를 모델 매개 변수로 생각하지 않습니다.
Michael R. Chernick

2
에서 2D 벡터 드로잉 iid를 고려하십시오 . 는 두 가지 분산 와 상관 관계 매개 변수화 할 수 있습니다 . 이 모델 내에는 모델이 있습니다 . 이제 첫 번째 주요 구성 요소 의 각도 ( 와 해당 구성 요소의 고유 값 ( 을 기준으로 매개 변수화 할 수 있습니다 . 이 안에 모델이 중첩됩니다 . 두 관점 모두 완벽한 상관 관계 (공선 성)를 테스트합니다. 그들은 단지 다른 매개 변수를 사용합니다. 첫 번째를 모델로 허용하는 경우 두 번째 허용 해야합니다 . N ( 0 , Σ ) Σ σ 2 i ρ | ρ | = 1 θ λ 1λ 2 λ 2 = 0XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0
whuber

-3

여기에는 AIC가 적합하지 않습니다. 다양한 수의 매개 변수가있는 모델 중에서 선택하지 않았습니다. 주성분은 매개 변수가 아닙니다.

요인의 수를 만드는 것 : 돌 더미 테스트 등 1> 고유 값,하지만 실제 테스트는 실질적인이다 - 거기 요인 분석이나 주성분 분석 요소 또는 구성 요소의 수를 결정하는 방법의 수는 의미가 ? 요인을 살펴보고 가중치를 고려하여 데이터에 가장 적합한 것을 알아냅니다.

통계의 다른 것들과 마찬가지로, 이것은 쉽게 자동화 할 수있는 것이 아닙니다.


4
ΣΣ

1
@whuber 공분산 행렬의 모수는 모형 모수 일 수도 있지만 아닐 수도 있습니다. 나는 이것과 관련하여 피터와 함께 있습니다.
Michael R. Chernick

3
피터, 정확히 "모델 파라미터"와 "파라미터"를 어떻게 구별합니까? 나는 그런 것을 알지 못하므로 이것에 대해 배우면 감사하겠습니다. 다변량 공분산에 대한 포괄적 인 설명을 찾는 것이 목적인 경우 "모델"매개 변수를 구성하지 않습니까?
whuber

3
nmn

1
정보에 대해서 감사드립니다. 시계열은 내가 거의 알지 못하는 통계 영역 중 하나입니다.
Peter Flom-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.