실제로, 주요 주성분 (PC)이 저 분산보다 더 예측력이 있다는 보장은 없습니다.
실제 사례는 그렇지 않은 곳에서 찾아 볼 수 있으며, 가장 작은 PC 만 와 전혀 관련이없는 인공적인 사례를 쉽게 구성 할 수 있습니다.y
이 주제는 포럼에서 많이 논의되었으며, 불행히도 하나의 명백한 표준 스레드가 없으면 인공 현실 예제뿐만 아니라 다양한 실제 생활을 제공하는 여러 링크 만 제공 할 수 있습니다.
그리고 같은 주제이지만 분류의 맥락에서 :
그러나 실제로 상위 PC 는 종종 저 분산 PC 보다 예측력이 더 높으며, 상위 PC 만 사용하면 모든 PC를 사용하는 것보다 더 나은 예측력을 얻을 수 있습니다.
예측 변수 가 많고 데이터 포인트 비교적 적은 상황 (예 : 또는 )에서는 일반적인 회귀 분석이 과적 합되어 정규화해야합니다. 주성분 회귀 (PCR)는 회귀를 정규화하는 한 가지 방법으로 볼 수 있으며 우수한 결과를 얻는 경향이 있습니다. 더구나 이는 수축 정규화의 표준 방법 인 능선 회귀와 밀접한 관련이 있습니다. 능선 회귀를 사용하는 것이 일반적으로 더 좋은 아이디어이지만 PCR은 종종 합리적으로 잘 작동합니다. 수축이 작동하는 이유를 참조하십시오 . 바이어스-분산 트레이드 오프와 수축이 어떻게 유익 할 수 있는지에 대한 일반적인 논의.n p ≈ n p > npnp≈np>n
어떤 방식으로, 능선 회귀와 PCR 모두 에 대한 대부분의 정보 가 의 큰 PC에 포함되어 있다고 가정 할 수 있으며, 이러한 가정은 종종 보증됩니다.XyX
에 대한 몇 가지 논의 @cbeleites에 의해 나중에 대답 (+1)를 참조 왜 이러한 가정은 종종 보증 (그리고이 새로운 스레드를 : ? 차원 감소가 분류 거의 항상 유용가 몇 가지 더 의견을).
Hastie et al. 에서 통계 학습의 요소 (3.4.1) 능선 회귀의 맥락에서 이에 대한 코멘트 :
작은 특이 값 [...] 은 작은 분산을 갖는 의 열 공간에서의 방향에 대응하며 , 능선 회귀는 이러한 방향을 가장 많이 축소합니다. [...] 릿지 회귀는 짧은 방향으로 추정되는 기울기의 잠재적으로 높은 분산을 방지합니다. 암시적인 가정은 응답이 입력의 높은 분산 방향에서 가장 많이 변하는 경향이 있다는 것입니다. 예측 변수는 반응 변수에 따라 다르지만 일반적으로 보유 할 필요가 없기 때문에 연구를 위해 종종 선택되기 때문에 이것은 종종 합리적인 가정입니다.X
자세한 내용은 다음 스레드에서 내 답변을 참조하십시오.
결론
고차원 적 문제의 경우, PCA를 사용한 전처리 (차원을 줄이고 최고 PC 만 유지하는 것을 의미 함)는 정규화의 한 방법으로 간주 될 수 있으며 회귀 분석 또는 분류 방법과 같은 후속 분석 결과를 개선하는 경우가 많습니다. 그러나 이것이 작동한다는 보장 은 없으며 , 더 나은 정규화 방법이 종종 있습니다.