에서 대기 과학 통계 방법 예측 인자 중 매우 강한 intercorrelations (제 3 판, 페이지 559-560)이있는 경우, 다니엘 윌크스 노트는 다중 선형 회귀 분석 문제가 발생할 수 :
다중 선형 회귀 분석에서 발생할 수있는 병리학은 강력한 상호 상관 관계가있는 예측 변수 세트가 불안정한 회귀 관계 계산을 초래할 수 있다는 것입니다.
(...)
그런 다음 주성분 회귀 분석을 소개합니다.
이 문제를 해결하는 방법은 먼저 예측 변수를 주요 구성 요소로 변환하는 것입니다. 상관 관계는 0입니다.
여태까지는 그런대로 잘됐다. 그러나 다음으로, 그는 설명하지 않는 진술을합니다 (또는 적어도 이해하기에는 충분하지 않습니다).
모든 주성분이 주성분 회귀에 유지되면 전체 예측 변수 집합에 맞는 기존 최소 제곱보다 아무것도 얻지 못합니다.
(..) 및 :
원래 예측 변수를 사용하여 주성분 회귀를 다시 표현할 수 있지만 결과에는 하나 또는 소수의 주성분 예측기가 사용 된 경우에도 일반적으로 모든 원래 예측 변수가 포함됩니다. 이 재구성 된 회귀는 종종 분산이 훨씬 작아서 전체적으로 MSE가 더 작아 지더라도 편향됩니다.
나는이 두 가지 점을 이해하지 못한다.
물론 모든 주요 구성 요소가 유지되면 원래 공간에서 예측 변수를 사용할 때와 동일한 정보를 사용합니다. 그러나 주성분 공간에서 작업함으로써 상호 상관 문제는 제거됩니다. 우리는 여전히 과적 합을 할 수 있지만 이것이 유일한 문제입니까? 왜 아무것도 얻지 못합니까?
둘째, 주요 구성 요소를 자르더라도 (아마도 소음 감소 및 / 또는 과적 합 방지) 왜 그리고 어떻게 편향된 재구성 회귀가 발생합니까? 어떤 방법으로 편향 되었습니까?
도서 출처 : Daniel S. Wilks, 대기 과학 통계 방법, 2011 년 3 판. International Geophysics Series Volume 100, Academic Press.