주요 주성분은 어떻게 종속 변수에 대한 예측력을 유지할 수 있습니까 (또는 더 나은 예측으로 이어질 수 있습니까)?


25

회귀 실행한다고 가정하십시오 . 성분을 선택하여 왜 모델이 에 대한 예측력을 유지 합니까?k X YYXkXY

차원 축소 / 기능 선택 관점에서 가 상위 고유 값을 가진 의 공분산 행렬의 고유 벡터 이면 는 상위 주요 구성 요소입니다 최대 분산으로. 따라서 우리는 의 피처 수를 줄이고 예측력의 대부분을 이해할 수 있습니다. X k X v 1 , X v 2 . . . X v k k kv1,v2,...vkXkXv1,Xv2...Xvkkk

그러나 왜 최상위 구성 요소가 에 대한 예측력을 유지 합니까?YkY

우리가 일반적으로 OLS에 대해 이야기하면 , 기능 경우 제안 할 이유가 없다 최대 편차를 가지고, 다음 에서 가장 예측 능력이있다 .Z i Z i YYZZiZiY

의견을 본 후 업데이트 : 차원 축소를 위해 PCA를 사용하는 사례를 많이 보았습니다. 나는 우리가 남겨둔 차원이 가장 예측력이 있다는 것을 의미한다고 가정했습니다. 그렇지 않으면 차원 축소의 요점은 무엇입니까?


3
정확합니다 : 의 상위 PC가 예측력을 가졌다 고 가정하는 수학적인 이유는 없습니다. 공변량 가 주어진 와 관계가 있다고 가정하는 수학적인 이유가없는 것처럼 말입니다 . 당신이 만난 어떤 진술을 언급하고있는 것 같습니다 : 정확히 무엇을 말하고 누가 말했습니까? X X YKXXY
whuber

@ whuber 차원 축소를 위해 PCA를 사용하는 사례가 많이있는 것 같습니다. 나는 우리가 남겨둔 차원이 가장 예측력이 있다는 것을 의미한다고 가정했습니다. 그렇지 않으면 그것이 치수를 줄이는 지점입니까?
Vendetta

답변:


43

실제로, 주요 주성분 (PC)이 저 분산보다 더 예측력이 있다는 보장은 없습니다.

실제 사례는 그렇지 않은 곳에서 찾아 볼 수 있으며, 가장 작은 PC 만 와 전혀 관련이없는 인공적인 사례를 쉽게 구성 할 수 있습니다.y

이 주제는 포럼에서 많이 논의되었으며, 불행히도 하나의 명백한 표준 스레드가 없으면 인공 현실 예제뿐만 아니라 다양한 실제 생활을 제공하는 여러 링크 만 제공 할 수 있습니다.

그리고 같은 주제이지만 분류의 맥락에서 :


그러나 실제로 상위 PC 종종 저 분산 PC 보다 예측력이 더 높으며, 상위 PC 만 사용하면 모든 PC를 사용하는 것보다 더 나은 예측력을 얻을 수 있습니다.

예측 변수 가 많고 데이터 포인트 비교적 적은 상황 (예 : 또는 )에서는 일반적인 회귀 분석이 과적 합되어 정규화해야합니다. 주성분 회귀 (PCR)는 회귀를 정규화하는 한 가지 방법으로 볼 수 있으며 우수한 결과를 얻는 경향이 있습니다. 더구나 이는 수축 정규화의 표준 방법 인 능선 회귀와 밀접한 관련이 있습니다. 능선 회귀를 사용하는 것이 일반적으로 더 좋은 아이디어이지만 PCR은 종종 합리적으로 잘 작동합니다. 수축이 작동하는 이유를 참조하십시오 . 바이어스-분산 트레이드 오프와 수축이 어떻게 유익 할 수 있는지에 대한 일반적인 논의.n p n p > npnpnp>n

어떤 방식으로, 능선 회귀와 PCR 모두 에 대한 대부분의 정보 가 의 큰 PC에 포함되어 있다고 가정 할 수 있으며, 이러한 가정은 종종 보증됩니다.XyX

에 대한 몇 가지 논의 @cbeleites에 의해 나중에 대답 (+1)를 참조 이러한 가정은 종종 보증 (그리고이 새로운 스레드를 : ? 차원 감소가 분류 거의 항상 유용가 몇 가지 더 의견을).

Hastie et al. 에서 통계 학습의 요소 (3.4.1) 능선 회귀의 맥락에서 이에 대한 코멘트 :

작은 특이 값 [...] 은 작은 분산을 갖는 의 열 공간에서의 방향에 대응하며 , 능선 회귀는 이러한 방향을 가장 많이 축소합니다. [...] 릿지 회귀는 짧은 방향으로 추정되는 기울기의 잠재적으로 높은 분산을 방지합니다. 암시적인 가정은 응답이 입력의 높은 분산 방향에서 가장 많이 변하는 경향이 있다는 것입니다. 예측 변수는 반응 변수에 따라 다르지만 일반적으로 보유 할 필요가 없기 때문에 연구를 위해 종종 선택되기 때문에 이것은 종종 합리적인 가정입니다.X

자세한 내용은 다음 스레드에서 내 답변을 참조하십시오.


결론

고차원 적 문제의 경우, PCA를 사용한 전처리 (차원을 줄이고 최고 PC 만 유지하는 것을 의미 함)는 정규화의 한 방법으로 간주 될 수 있으며 회귀 분석 또는 분류 방법과 같은 후속 분석 결과를 개선하는 경우가 많습니다. 그러나 이것이 작동한다는 보장 은 없으며 , 더 나은 정규화 방법이 종종 있습니다.


답변에서 참조를 수집 해 주셔서 감사합니다. 최근에 또 다른 것이 있습니다. 추가 링크가있는 답변이 있습니다.
ttnphns

감사합니다, @ttnphns! [pca] 태그가 없었기 때문에 해당 게시물을 보지 못했습니다 (소수의 특정 태그 만 밀접하게 따르고 있습니다). 실제로, 나는 5-10 개의 밀접하게 관련된 스레드가 느슨하게 수집되어있어서 불행합니다. 질문과 대답이 실제로 완벽하지 않고 그들 사이에 실제로 중복되지 않습니다. 나중에 참조 할 수있는 하나의 표준 스레드를 선호합니다.
amoeba는 Reinstate Monica

그 질문에 태그를 추가했습니다. 그 흥미로운 주제에 대한 "완벽한"백과 사전의 답변은 작가를 기다리고 있습니다. :-) 하나가되기로 결정할 수도 있습니다.
ttnphns


11

이미 수학적 특성에 중점을 둔 답변 외에도 실험적 관점에서 언급하고 싶습니다.

요약 : 데이터 생성 프로세스는 종종 데이터를 주성분 (PCR) 또는 부분 최소 제곱 (PLS) 회귀에 적합하게 만드는 방식으로 최적화됩니다.


저는 분석 화학자입니다. 무언가를 측정 (회귀 또는 분류)하기위한 실험 / 방법을 설계 할 때, 응용 프로그램 및 사용 가능한 장비에 대한 지식을 사용하여 현재 작업과 관련하여 신호 대 잡음비가 우수한 데이터를 얻습니다. 즉, 내가 생성하는 데이터는 관심있는 속성과 큰 공분산을 갖도록 설계되었습니다.
이것은 흥미로운 분산이 큰 분산 구조로 이어지고, 이후 PC는 (작은) 노이즈 만 전달합니다.

또한보다 강력하고 정확한 결과를 얻기 위해 현재 작업에 대한 중복 정보를 제공하는 방법을 선호합니다. PCA는 여분의 측정 채널을 하나의 PC에 집중시켜 많은 편차를 전달하므로 최초의 PC 중 하나입니다.

관심있는 속성과 관련이없는 큰 차이를 유발할 수있는 알려진 confounders가있는 경우 데이터의 전처리 과정에서 가능한 한 많이 수정하려고 시도합니다. 많은 경우 이러한 confounders는 알려진 물리적 또는 화학적 성질을 지니고 있으며이 지식은 혼란스러운 사람들을 바로 잡을 수있는 적절한 방법을 제시합니다. 예를 들어, 현미경으로 라만 스펙트럼을 측정합니다. 그들의 강도는 레이저 광의 강도와 현미경의 초점을 얼마나 잘 맞출 수 있는지에 달려 있습니다. 두 가지 모두 예를 들어 일정한 것으로 알려진 신호로 정규화함으로써 수정 될 수있는 변화를 초래합니다.
따라서, 데이터가 PCA에 들어가기 전에 솔루션에 기여하지 않는 분산의 큰 원인이 제거되어 첫 번째 PC에서 대부분 의미있는 분산이 남을 수 있습니다.


마지막으로, 여기에는 약간의 자체 이행 예언이 있습니다. 분명히 정보 전달 분산이 크다는 가정이 의미가있는 데이터로 PCR이 수행됩니다. 예를 들어 수정 방법을 모르는 중요한 혼란자가있을 수 있다고 생각하면 즉시 PLS를 사용하여 예측 작업에 도움이되지 않는 큰 기여를 무시하는 것이 좋습니다.


+1. 토론에 참여해 주셔서 감사합니다.
amoeba는 Reinstate Monica

@amoeba : 친절한 말에 감사드립니다. 항상 그렇듯이 귀하의 답변은 매우 철저합니다. 나는 실제로 당신이 [pca]를 돌보는 것에 의존합니다!
cbeleites는 Monica

6

PCA는 때때로 공 선형 변수로 인한 문제를 해결하는 데 사용되므로 X 공간의 변동 대부분이 K 주요 구성 요소에 의해 포착됩니다.

그러나이 수학적 문제는 물론 설명 할 수없는 변동이 가능한 한 작은 방식으로 X, Y 공간에서 대부분의 변동을 캡처하는 것과 동일하지 않습니다.

부분 최소 제곱은 후자의 의미에서 이것을 시도합니다.

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

다른 지적한 바와 같이, 상위 k 고유 벡터와 예측력 사이에는 직접적인 연관성이 없다. 상단을 선택하고 기준으로 사용하면 일부 최고 에너지 (또는 축을 따라 분산)가 유지됩니다.

가장 분산을 설명하는 축이 실제로 예측에 유용하지만 일반적으로는 그렇지 않습니다.


당신이 "일반적으로"라고 말할 때, 당신은 일반적으로 또는 일반적으로 이론을 의미합니까?
amoeba는 Reinstate Monica

@amoeba 일반적으로 상위 k 최대 분산 축에 데이터를 투영하는 것이 예측 / 구별 적이 지 않은 데이터 세트를 구성하기가 쉽기 때문입니다.
Vladislavs Dovgalecs

-1

간단한 설명 하나만 드리겠습니다.

PCA는 특정 기능을 직관적으로 제거합니다. 이렇게하면 과적 합의 가능성이 줄어 듭니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.