부분 최소 제곱, 감소 된 순위 회귀 및 주요 구성 요소 회귀 간의 연결은 무엇입니까?


16

감소 된 순위 회귀 및 주성분 회귀는 부분 최소 제곱의 특별한 경우입니까?

이 튜토리얼 (6 페이지의 "목표 비교")에서는 X 또는 Y를 투영하지 않고 부분 최소 제곱을 수행 할 때 (즉, "부분이 아님") 해당 등급이 감소하거나 주성분 회귀가 감소한다고 설명합니다.

이 SAS 설명서 페이지 , "감소 된 순위 회귀"및 "방법 간의 관계"섹션 에서 유사한 내용이 설명됩니다 .

보다 근본적인 후속 질문 은 유사한 기본 확률 모델이 있는지 여부입니다.


이것은 정말 중요한 문제입니다.
Steve

@ 스티브. 감사. 더 자세한 소개는 위의 의견을 참조하십시오.
Minkov

답변:


15

이것들은 세 가지 다른 방법이며, 그중 어느 것도 다른 경우의 특별한 경우로 볼 수 없습니다.

형식적 경우 Y가 집중되어 예측기 ( N × P )과 응답 ( N × Q ) 데이터 집합 및 우리 축의 첫 번째 쌍 보면 R의 P 에 대한 XVR의 Q 에 대한 Y 그리고, 이들 방법을 다음 수량을 최대화하십시오.XYn×pn×qwRpXvRqY

PCA:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)Corr2(Xw,Yv)

(이 목록에 표준 상관 분석 (CCA)을 추가했습니다.)


SAS에서는 세 가지 방법이 모두 PROC PLS다른 매개 변수를 가진 동일한 기능 을 통해 구현되는 것처럼 보이기 때문에 혼동이 의심 됩니다. 따라서 SAS 기능의 이름이 지정 되었기 때문에 세 가지 방법 모두 PLS의 특수한 경우 인 것 같습니다. 그러나 이것은 불행한 이름입니다. 실제로 PLS, RRR 및 PCR은 어떤 이유로 인해 SAS에서 하나의 기능으로 구현되는 세 가지 방법입니다 PLS.

당신이 연결 한 두 튜토리얼은 실제로 그것에 대해 매우 분명합니다. 않는 세 가지 방법의 프리젠 테이션 튜토리얼 상태 목표 페이지 6 하지 PLS 말은 당신이 당신의 질문에있어서 무엇을 RRR 또는 PCR, 반대로 "가됩니다." 마찬가지로, SAS 문서는 공식과 직관을 제공하는 세 가지 방법이 다르다고 설명합니다.

[P] 주성분 회귀 분석은 가능한 한 많은 예측 변수 변동을 설명하는 요인을 선택하고 감소 된 순위 회귀 분석은 최대한 많은 반응 변동을 설명하는 요인을 선택하며 부분 최소 제곱은 두 목표의 균형을 조정하여 반응 및 예측 변수 변동을 모두 설명하는 요인을 찾습니다. .

SAS 문서에는 세 가지 방법이 다른 솔루션을 제공하는 훌륭한 장난감 예제를 보여주는 그림도 있습니다. 이 장난감 예제에는 두 개의 예측 변수 x 2 와 하나의 반응 변수 y가 있습니다. 방향 X 가장 상관 관계가 Y는 의 최대 변화의 방향에 직교하도록 발생 X . 따라서 PC1은 첫 번째 RRR 축에 직교하고 PLS 축은 중간에 있습니다.x1x2yXyX

PCR, PLS, RRR

RRR 손실 함수에 능선 페널티를 추가하여 능선 감소 순위 회귀 또는 RRRR을 얻을 수 있습니다. 이렇게하면 회귀 축이 PC1 방향으로 당겨지며 PLS가 수행하는 것과 다소 유사합니다. 그러나 RRRR의 비용 함수는 PLS 양식으로 작성할 수 없으므로 서로 다릅니다.

y


4
끝에있는 테이블이 매우 유용합니다. 이 표를 기반으로 자전거와 외발 자전거가 세발 자전거의 특별한 경우라고 생각하면 PCA, RRR 및 CCA를 PLS의 "특별 사례"로 간주 할 수 있습니다. 나는 그렇게 생각하지 않습니다.
EdM

2
@ EdM, 나는이 모든 방법이 실제로 이름이없는 통합 방법의 특별한 경우라고 말할 수 있다고 생각합니다 (그러나 사람은 그것을 발명 할 수 있습니다!). 그러나 "PLS"라는 이름은 이미 확립 된 의미를 가지며이 의미에는 이러한 다른 기술이 포함되지 않습니다.
amoeba 말한다 Reinstate Monica

1
그리고 감사합니다! 나는 이제 답변의 시작 부분으로 테이블을 이동하기로 결정했습니다 :)
amoeba는 Reinstate Monica가

2
XYVar(Xw)αCorr(Xw,Yv)βVar(Yv)γ
아메바는

1
@Moskowitz : 일반적으로 사람들이 방법 A를 방법 B의 "특별한 사례"라고 이야기 할 때, 이는 B가 더 일반적이고 A는 특정 매개 변수를 가진 B와 동일하다는 것을 의미합니다. 데이터 집합의 특정 조건에서 A가 B와 동일한 결과를 제공한다는 의미 는 아닙니다 . 따라서 귀하의 질문에 대한 답변입니다.
amoeba 말한다 Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.