PCA의 저 분산 구성 요소는 실제로 잡음 일 뿐입니 까? 그것을 테스트 할 수있는 방법이 있습니까?


18

PCA의 구성 요소를 유지할지 여부를 결정하려고합니다. 예를 들어 여기 또는 여기 에서 설명하고 비교 한 고유 값의 크기를 기반으로하는 기준의 기준이 있습니다 .

그러나 내 응용 프로그램에서 가장 작은 고유 값은 큰 고유 값에 비해 작고 크기를 기준으로 한 기준은 가장 작은 고유 값을 거부한다는 것을 알고 있습니다. 이것은 내가 원하는 것이 아닙니다. 내가 관심있는 것은 작은 고유 값의 실제 대응하는 구성 요소를 고려하여 알려진 방법이 있습니까? 관심이 남아? 잡음이 심하면 고유 값의 크기에 관계없이 제거하고 그렇지 않으면 유지하십시오.

찾을 수없는 PCA의 구성 요소에 대해 어떤 종류의 무작위성 또는 분포 테스트가 있습니까? 아니면 이것이 어리석은 아이디어가 될 이유를 아는 사람이 있습니까?

최신 정보

두 가지 사용 사례에서 구성 요소의 히스토그램 (녹색) 및 일반적인 근사치 (파란색) : 한 번은 실제로는 노이즈, 한 번은 "단지"노이즈는 아닙니다 (예, 값은 작지만 임의는 아님). 두 경우 모두에서 가장 큰 특이 값은 ~ 160이며, 가장 작은 값, 즉이 특이 값은 0.0xx이며 컷오프 방법에 비해 너무 작습니다.

내가 찾고있는 것은 이것을 공식화하는 방법입니다 ...

아마 정말 "그냥"소음 아마도 소음은 아니지만 재미있는 비트가 포함될 수 있습니다.


2
당신이 말하는 많은 테스트들은 당신이 요구하는 속성을 정확히 가지고 있습니다 : 그들은 "소음"과 "신호"를 구별하려고 시도합니다.
whuber

2
최근에 비슷한 질문에 관심이 있었지만 각 데이터 포인트에 대해 여러 측정 값이있는 특정 상황에 관심이있었습니다. 각 데이터 포인트에 대해 여러 샘플을 사용할 수있는 경우 PCA 구성 요소 수 선택을 참조하십시오 . 어쩌면 그것은 당신의 경우에도 적용됩니까?
amoeba는 Reinstate Monica가

PC에서 분포 테스트를 사용하여 임의의 소리를 매우 흥미로운 아이디어로 결정했습니다. ICA에서 비슷한 작업이 수행되며, 특히 최대 비 가우시안 구성 요소를 찾습니다. PCA를 수행 한 다음 "너무 가우시안 (Gaussian)"인 구성 요소를 폐기하면 ICA의 특성이 있으며 실제로 작동 할 수 있습니다!
amoeba 말한다 Reinstate Monica

답변:


20

소형 주성분 (PC)의 무작위성을 테스트하는 한 가지 방법은 노이즈 대신 신호처럼 처리하는 것입니다. 즉, 관심있는 다른 변수를 예측하려고합니다. 이것은 본질적으로 주성분 회귀 (PCR) 입니다.

PCR의 예측 맥락에서, Lott (1973)는 를 최대화하는 방식으로 PC를 선택할 것을 권장하고 ; Gunst and Mason (1977)은 중점을 둔다 . 고유 값이 작은 PC (예 : 가장 작은 것)는 예측을 향상시킬 수 있으며 (Hotelling, 1957; Massy, ​​1965 ; Hawkins, 1973; Hadi & Ling, 1998 ; Jackson, 1991) 일부 공개 된 예측 응용 프로그램 ( Jolliffe) 에서 매우 흥미로운 것으로 입증되었습니다 , 1982 , 2010 ) . 여기에는 다음이 포함됩니다. M S E아르 자형2미디엄에스이자형

  • PC 총 1, 3, 4, 6, 7, 8 개를 사용하는 화학 공학 모델 ( Smith & Campbell, 1980 )
  • 10 대 중 8 대, 2 대 및 10 대 PC (중요도 순)를 사용하는 몬순 모델 ( Kung & Sharif, 1980 )
  • 6 대 중 4 대와 5 대를 사용하는 경제 모델 (Hill, Fomby, & Johnson, 1977)

위에 나열된 예제의 PC는 고유 값의 순위 크기에 따라 번호가 매겨집니다. Jolliffe (1982) 는 마지막 구성 요소가 가장 많이 기여하는 클라우드 모델을 설명합니다. 그는 결론 :

위의 예는 마지막 몇 가지 주성분이 주성분 회귀에서 중요하기 위해 모호하거나 기괴한 데이터를 찾을 필요가 없음을 보여주었습니다. 오히려 그러한 예는 실제로는 일반적 일 수 있습니다. 힐 외. (1977)은 분산의 크기에 기초하여 선택의 아이디어를 영원히 묻어 두어야 할 주요 구성 요소를 선택하기위한 전략에 대한 철저하고 유용한 토론을 제공한다. 불행히도 이것은 일어나지 않은 것으로 보이며, 아이디어는 아마도 20 년 전보다 더 널리 퍼져있을 것입니다.

또한 작은 고유 값 PC를 제외하면 편향이 발생할 수 있습니다 (Mason & Gunst, 1985) . Hadi and Ling (1998) 은 회귀 도 고려할 것을 권장한다 . 그들은 그들의 기사를 요약한다 :에스에스

이 기사의 기본 결론은 일반적으로 PC가 회귀 적합도를 설명하지 못할 수 있다는 것입니다. 이론 1에 언급 된 바와 같이, 거의 100 %의 분산을 가질 수 있는 첫 번째 PC는 적합에 아무런 영향을 미치지 않는 반면 반응 변수 는 마지막에 완벽하게 적합 할 수 있습니다 PCR 방법론에서 항상 무시되는 PC.Y(1)와이

반응 변수의 변이를 설명하는 PCR의 실패 이유는 에만 의존하는 PCD [주성분 분해]를 기반으로 PC가 선택 되었기 때문 입니다. 따라서 PCR을 사용하려면 신중하게 사용해야하며 유지할 PC 선택은 분산 분해뿐만 아니라 각 주요 구성 요소의 회귀 제곱합에 대한 기여도에 따라 안내되어야합니다.엑스

" Jolliffe (2010) 는 PC를 선택하는 다른 방법을 검토합니다 ."를 포함하여 PCR에서 PC 선택에 대한 내 자신의 오해 를 시정 한 @Scortchi에게이 답변을 전 합니다. 이 참조는 추가 아이디어를 찾기에 좋은 장소 일 수 있습니다.

참고 문헌

-Gunst, RF, & Mason, RL (1977). 회귀 분석의 편향 추정 : 평균 제곱 오차를 사용한 평가. 미국 통계 협회 저널, 72 (359), 616–628.
-Hadi, AS, & Ling, RF (1998). 주성분 회귀 사용에 대한 몇 가지주의 사항. 미국 통계 학자, 52 (1), 15–19. http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf 에서 검색했습니다 .
-호킨스, DM (1973). 주성분 분석에 의한 대체 회귀 분석. 응용 통계, 22 (3), 275–286.
-Hill, RC, Fomby, TB, & Johnson, SR (1977). 주성분 회귀 분석에 대한 성분 선택 규범.통계 커뮤니케이션 – 이론과 방법, 6 (4), 309–334.
-Hotelling, H. (1957). 새로운 다변량 통계 방법과 요인 분석의 관계. 영국 통계 심리 학회지, 10 (2), 69–79.
-잭슨,이. (1991). 주요 구성 요소에 대한 사용자 안내서 . 뉴욕 : 와일리.
-Jolliffe, IT (1982). 회귀에서 주성분의 사용에주의하십시오. 응용 통계, 31 (3), 300–303. http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf 에서 검색했습니다 .
-Jolliffe, IT (2010).주요 성분 분석 (제 2 판). 봄 병아리.
-Kung, EC, & Sharif, TA (1980). 선행 대기 조건이있는 인도 여름 몬순의 시작에 대한 회귀 예측. 응용 기상학 저널, 19 (4), 370–380. http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf 에서 검색했습니다.
-로트, WF (1973). 최소 제곱 회귀에 대한 최적의 주성분 제한 세트. 통계 커뮤니케이션 – 이론과 방법, 2 (5), 449–464.
-Mason, RL, & Gunst, RF (1985). 회귀 분석에서 주성분 선택. 통계 및 확률 서한, 3 (6), 299–301.
-매시, WF (1965). 탐색 적 통계 연구에서 주성분 회귀. 미국 통계 협회 저널, 60 (309), 234–256. http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf 에서 검색했습니다 .
-Smith, G., & Campbell, F. (1980). 능선 회귀 분석법에 대한 비판. 미국 통계 협회 저널, 75 (369), 74–81. https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf 에서 검색했습니다 .


4
... 그리고 문제를 해결하는 데 필요한 효과가 노이즈 wrt 인 다른 효과보다 크다는 보장은 없습니다. 당면한 문제. 나는 ... 분산의 95 % (때문에) 물리 효과로 소음이었다 데이터를 본 적이
cbeleites 모니카 지원합니다

3
매우 좋은 리뷰이지만, ( 응답을 다시 미안) 페이스 Hadi & Ling은 반응과의 강한 관계에 따라 회귀 상태로 유지할 PC를 선택하는 것은 반응과의 강한 관계를 기반으로 원래 예측 변수를 선택하는 것만 큼 위험합니다. 교차 검증이 필수적이며 수축이 바람직합니다. 개인적으로 나는 예측 자들에 대한 데이터 감소를 안내하고, 반응에 대해 맹목적으로, 예를 들어, 거의 같은 것을 측정하거나 변수 클러스터링에 의해 결정된 예측 자 그룹의 PC를 사용하여 주제 지식과 함께 PCA를 신중하게 사용하는 것을 선호한다.
Scortchi-Monica Monica 복원

2
이 답변에 +1 (오래 전에)했지만 지금이 스레드를 검토 한 후에는이 답변이 원래의 질문에 거의 대답하지 않았다고 말해야합니다. 그들의 무작위성. OP에 대한 마지막 의견도 참조하십시오.
amoeba 말한다 Reinstate Monica

2

@Nick Stauner의 답변에 덧붙여, 서브 스페이스 클러스터링을 다룰 때 PCA는 종종 좋지 않은 솔루션입니다.

PCA를 사용할 때, 가장 높은 고유 값을 갖는 고유 벡터에 대해 주로 우려하고 있는데, 이는 데이터가 가장 '늘려지는'방향을 나타냅니다. 데이터가 작은 부분 공간으로 구성된 경우 PCA는 전체 데이터 분산에 크게 기여하지 않기 때문에이를 무시합니다.

따라서 작은 고유 벡터가 항상 순수한 노이즈는 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.