소형 주성분 (PC)의 무작위성을 테스트하는 한 가지 방법은 노이즈 대신 신호처럼 처리하는 것입니다. 즉, 관심있는 다른 변수를 예측하려고합니다. 이것은 본질적으로 주성분 회귀 (PCR) 입니다.
PCR의 예측 맥락에서, Lott (1973)는 를 최대화하는 방식으로 PC를 선택할 것을 권장하고 ; Gunst and Mason (1977)은 중점을 둔다 . 고유 값이 작은 PC (예 : 가장 작은 것)는 예측을 향상시킬 수 있으며 (Hotelling, 1957; Massy, 1965 ; Hawkins, 1973; Hadi & Ling, 1998 ; Jackson, 1991) 일부 공개 된 예측 응용 프로그램 ( Jolliffe) 에서 매우 흥미로운 것으로 입증되었습니다 , 1982 , 2010 ) . 여기에는 다음이 포함됩니다. M S E아르 자형2미디엄에스이자형
- PC 총 1, 3, 4, 6, 7, 8 개를 사용하는 화학 공학 모델 ( Smith & Campbell, 1980 )
- 10 대 중 8 대, 2 대 및 10 대 PC (중요도 순)를 사용하는 몬순 모델 ( Kung & Sharif, 1980 )
- 6 대 중 4 대와 5 대를 사용하는 경제 모델 (Hill, Fomby, & Johnson, 1977)
위에 나열된 예제의 PC는 고유 값의 순위 크기에 따라 번호가 매겨집니다. Jolliffe (1982) 는 마지막 구성 요소가 가장 많이 기여하는 클라우드 모델을 설명합니다. 그는 결론 :
위의 예는 마지막 몇 가지 주성분이 주성분 회귀에서 중요하기 위해 모호하거나 기괴한 데이터를 찾을 필요가 없음을 보여주었습니다. 오히려 그러한 예는 실제로는 일반적 일 수 있습니다. 힐 외. (1977)은 분산의 크기에 기초하여 선택의 아이디어를 영원히 묻어 두어야 할 주요 구성 요소를 선택하기위한 전략에 대한 철저하고 유용한 토론을 제공한다. 불행히도 이것은 일어나지 않은 것으로 보이며, 아이디어는 아마도 20 년 전보다 더 널리 퍼져있을 것입니다.
또한 작은 고유 값 PC를 제외하면 편향이 발생할 수 있습니다 (Mason & Gunst, 1985) . Hadi and Ling (1998) 은 회귀 도 고려할 것을 권장한다 . 그들은 그들의 기사를 요약한다 :에스에스
이 기사의 기본 결론은 일반적으로 PC가 회귀 적합도를 설명하지 못할 수 있다는 것입니다. 이론 1에 언급 된 바와 같이, 거의 100 %의 분산을 가질 수 있는 첫 번째 PC는 적합에 아무런 영향을 미치지 않는 반면 반응 변수 는 마지막에 완벽하게 적합 할 수 있습니다 PCR 방법론에서 항상 무시되는 PC.Y( p - 1 )와이
반응 변수의 변이를 설명하는 PCR의 실패 이유는 에만 의존하는 PCD [주성분 분해]를 기반으로 PC가 선택 되었기 때문 입니다. 따라서 PCR을 사용하려면 신중하게 사용해야하며 유지할 PC 선택은 분산 분해뿐만 아니라 각 주요 구성 요소의 회귀 제곱합에 대한 기여도에 따라 안내되어야합니다.엑스
" Jolliffe (2010) 는 PC를 선택하는 다른 방법을 검토합니다 ."를 포함하여 PCR에서 PC 선택에 대한 내 자신의 오해 를 시정 한 @Scortchi에게이 답변을 전 합니다. 이 참조는 추가 아이디어를 찾기에 좋은 장소 일 수 있습니다.
참고 문헌
-Gunst, RF, & Mason, RL (1977). 회귀 분석의 편향 추정 : 평균 제곱 오차를 사용한 평가. 미국 통계 협회 저널, 72 (359), 616–628.
-Hadi, AS, & Ling, RF (1998). 주성분 회귀 사용에 대한 몇 가지주의 사항. 미국 통계 학자, 52 (1), 15–19. http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf 에서 검색했습니다 .
-호킨스, DM (1973). 주성분 분석에 의한 대체 회귀 분석. 응용 통계, 22 (3), 275–286.
-Hill, RC, Fomby, TB, & Johnson, SR (1977). 주성분 회귀 분석에 대한 성분 선택 규범.통계 커뮤니케이션 – 이론과 방법, 6 (4), 309–334.
-Hotelling, H. (1957). 새로운 다변량 통계 방법과 요인 분석의 관계. 영국 통계 심리 학회지, 10 (2), 69–79.
-잭슨,이. (1991). 주요 구성 요소에 대한 사용자 안내서 . 뉴욕 : 와일리.
-Jolliffe, IT (1982). 회귀에서 주성분의 사용에주의하십시오. 응용 통계, 31 (3), 300–303. http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf 에서 검색했습니다 .
-Jolliffe, IT (2010).주요 성분 분석 (제 2 판). 봄 병아리.
-Kung, EC, & Sharif, TA (1980). 선행 대기 조건이있는 인도 여름 몬순의 시작에 대한 회귀 예측. 응용 기상학 저널, 19 (4), 370–380. http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf 에서 검색했습니다.
-로트, WF (1973). 최소 제곱 회귀에 대한 최적의 주성분 제한 세트. 통계 커뮤니케이션 – 이론과 방법, 2 (5), 449–464.
-Mason, RL, & Gunst, RF (1985). 회귀 분석에서 주성분 선택. 통계 및 확률 서한, 3 (6), 299–301.
-매시, WF (1965). 탐색 적 통계 연구에서 주성분 회귀. 미국 통계 협회 저널, 60 (309), 234–256. http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf 에서 검색했습니다 .
-Smith, G., & Campbell, F. (1980). 능선 회귀 분석법에 대한 비판. 미국 통계 협회 저널, 75 (369), 74–81. https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf 에서 검색했습니다 .