회귀 분석과 PCA에서 데이터를 중심에 놓으면 어떻게 절편을 제거 할 수 있습니까?


38

나는 인터셉트를 제거하기 위해 ( 이 질문 에서 언급 한 바와 같이) 데이터를 중심에 둔 인스턴스에 대해 계속 읽습니다 (예 : 정규화 또는 PCA ). 나는 그것이 단순하다는 것을 알고 있지만, 이것을 직관적으로 이해하는 데 어려움을 겪고 있습니다. 누군가 내가 읽을 수있는 직관이나 참조를 제공 할 수 있습니까?


2
이것은 stats.stackexchange.com/questions/17336/… 에 설명 된대로 (여러 가지 방법으로) 다른 변수를 제어하는 ​​매우 특별한 경우입니다 . 제어되는 "변수"는 상수 (절편) 항입니다.
whuber

답변:


63

이 사진들이 도움이 될 수 있습니까?

처음 두 그림은 회귀에 관한 것입니다. 데이터를 중앙에 배치해도 회귀선의 기울기는 변경되지 않지만 차단은 0이됩니다.

여기에 이미지 설명을 입력하십시오

아래 그림은 PCA에 관한 것입니다. PCA는 regressional 모델 없이 절편 . 따라서 주요 구성 요소는 불가피하게 원점을 통과합니다. 데이터 중심을 잊어 버린 경우, 1 차 주요 구성 요소가 클라우드의 기본 방향을 따르지 않고 클라우드를 뚫을 수 있으며 (통계 상) 오해의 소지가 있습니다.1

여기에 이미지 설명을 입력하십시오


1 PCA는 물론 회귀 분석 이 아닙니다 . 그러나 선형 회귀와 공식적으로 동일한 선형 방정식 (선형 조합)을 공유합니다. PCA 방정식은 절편이 없는 선형 회귀 방정식과 같습니다 . PCA는 회전 연산이기 때문입니다.


1
감사! 후속 질문 : 회귀의 경우 보이지 않는 x에 대해 y를 예측하는 경우 예측 절편을 다시 추가해야한다는 것을 의미 합니까? 그리고 가로 채기는 ? y¯X¯β
Alec

15
PCA is maximizing variance이것은 일반적으로 사실이 아닙니다. PCA는 원점과의 제곱합 편차를 (1 차 PC 기준) 최대화합니다. 데이터가 예비 중심 (중심 자체가 PCA의 일부가 아님) 인 경우에만 분산이 최대화됩니다.
ttnphns

3
PS 공분산 또는 상관의 계산은 중심을 의미합니다
ttnphns

1
> PS 공분산 또는 상관의 계산은 중심을 의미합니다 – ttnphns Aug 27 '12 at 11:47 내가 당신의 다른 의견에 동의하지만, 공분산과 상관이 중심을 의미하지는 않습니다. 추가 상수가 데이터에 적용될 때 cor 또는 covar 값이 변경되지 않습니다.
TPM

1
이것은 거꾸로입니다. 추가 상수는 실제로 상관 관계에 영향을 미치지 않지만 @ttphns가 지적한 것처럼 계산에서 빼기 때문입니다. 그 외에도, 이것은 새로운 답변이 아니라 의견입니다. 우리는 귀하가 아직 언급 할만한 평판이 충분하지 않다는 것을 알고 있습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.