“환율 감소 회귀”란 무엇입니까?


22

통계 학습의 요소를 읽었으며 3.7 "여러 결과 축소 및 선택"섹션이 무엇인지 이해할 수 없었습니다. 그것은 RRR (환원 순위 회귀)에 대해 이야기하며, 전제는 계수가 알려지지 않았고 (추정되어야하지만) 전체 순위를 갖지 않는 것으로 알려진 일반 다변량 선형 모델에 대해서만 이해할 수 있습니다. 그것이 내가 이해하는 유일한 것입니다.

나머지 수학은 저 너머에 있습니다. 저자가 '하나는 보여줄 수있다'고 말하고 물건을 운동으로 남겨 두는 것도 도움이되지 않습니다.

누군가 여기에서 일어나고있는 일을 직관적으로 설명 할 수 있습니까? 이 장은 아마도 새로운 방법을 논의하고 있습니까? 또는 무엇을?


1
수축 및 변수 선택의 맥락에서 다중 결과 모델을 활용하는 회귀 방법을 제공하는 것 같습니다. 하나의 Y 결과는 없지만 하나 이상의 Y 결과가 있습니다. 5 개의 Y 결과가 있다고 가정하면이 섹션에서는 5 개의 개별 모델을 작성하는 대신 방법의 추정값을 풀링하는 방법에 대해 설명합니다.
spdrnl

1
저의 센트 : 하위 행렬을 가정하면 일이 더 간단 해집니다. 다행히도이 가정은 많은 실제 데이터 소스에 적용됩니다.
Vladislavs Dovgalecs

1
이 가정은 솔루션에 대한 제한 사항이있는 것으로 보입니다. 이 문서는 이유를 설명 statprob.com/encyclopedia/...을
Vladislavs Dovgalecs

답변:


42

1. RRR (Ranked Rank Regression)이란 무엇입니까?

다변량 다중 선형 회귀, 즉 독립 변수 및 q 종속 변수를 사용한 회귀를 고려하십시오 . 하자 XY는 예측기 (중심이되는 N × P )과 응답 ( N × Q ) 데이터 세트. 그런 다음 일반적인 일반 최소 제곱 (OLS) 회귀는 다음과 같은 비용 함수를 최소화하도록 공식화 할 수 있습니다.엑스와이××

=와이엑스2,

여기서 는 회귀 가중치 의 p × q 행렬입니다. 그 용액에 의해 주어진다 B O L S = ( XX ) - 1 XY , 및 그것하고 동등한 것을 쉽게 알 수있다 Q 분리 OLS 회귀 각 종속 변수 하나.×

^영형에스=(엑스엑스)1엑스와이,

감소 된 순위 회귀는 순위 제약 조건을 도입합니다 . 즉, L순위 ( B ) r 로 최소화해야합니다 . 여기서 rB 의 최대 허용 순위입니다 .계급()아르 자형아르 자형

2. RRR 솔루션을 얻는 방법?

RRR은 고유 벡터 문제로 캐스팅 될 수 있습니다. 실제로 OLS는의 열 공간에 정사영 필수적이라는 사실 사용하여 , 우리는 다시 쓸 수 L을 같은 L = Y - X B O L S2 + X B O L S - X B 2 . 첫 번째 항은에 의존하지 않는 B 및 두 번째 항은 피팅 값 SVD / PCA에 의해 최소화 될 수있다 Y = X B엑스

=와이엑스^영형에스2+엑스^영형에스엑스2.
.와이^=엑스^영형에스

구체적으로, 만일 최초로 R 의 주축 Y를 다음 B R R R = B O L S U R U R .아르 자형아르 자형Y^

B^RRR=B^OLSUrUr.

3. RRR이 좋은 이유는 무엇입니까?

RRR을 사용해야하는 두 가지 이유가 있습니다.

Br

둘째, 차원 축소 / 데이터 탐색 방법으로 사용할 수 있습니다. 예측 변수가 많고 종속 변수가 많으면 RRR은 예측 변수 공간에 "잠재적 요인"을 구성하여 DV의 분산을 설명하는 데 가장 효과적입니다. 내가 알고있는 한, 이것은 RRR이 중복 분석으로 알려져 있고 그들이 안수 방법 이라고 부르는 예의 생태학에서 일상적으로 수행됩니다 ( 여기 @GavinSimpson의 답변 참조). ).

4. 다른 차원 축소 방법과의 관계

RRR은 CCA 및 PLS와 같은 다른 차원 축소 방법과 밀접하게 연결되어 있습니다. 나는 그것을 내 대답에 약간의 커버 부분 최소 제곱, 감소 된 순위 회귀와 주성분 회귀 사이의 연결은 무엇을?

XYn×pn×qwRp엑스vRqY

PCA:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)Corr2(Xw,Yv)

자세한 내용은 거기를 참조하십시오.

대부분의 일반적인 선형 다변량 방법 (예 : PCA, CCA, LDA, PLS는 아님)을 RRR로 볼 수있는 방법에 대한 자세한 처리는 Torre, 2009, 성분 분석위한 최소 제곱 프레임 워크를 참조하십시오 .

5. 왜 Hastie et al. 너무 혼란 스럽습니까?

L=YXB2,
L=(YXB)(YY)1/22,
YY희게되면 차이가 사라집니다. Hastie et al. RRR 호출은 실제로 위장의 CCA입니다 (실제로 3.69 참조).

이 섹션에서는 그 중 어느 것도 올바르게 설명되지 않으므로 혼란이 있습니다.


친숙한 튜토리얼에 대한 저의 답변을 보거나 더 읽을 수있는 감소 된 회귀에 대한 소개를보십시오 .


이것은 매우 훌륭하게 작성된 자세한 설명입니다. 고마워요
cgo

rB

1
YBBLBL

1
rrdf^(r)=pq(pr)(qr)+"a small correction term"pqrYY^RRRR(r)Fro2(nqdf^(r))2


3

감소 된 순위 회귀는 단일 Y 결과가 아니라 다중 Y 결과가있는 모델입니다. 물론 각 반응에 대해 별도의 다변량 선형 회귀 분석을 적용 할 수 있지만 예측 변수와 각 반응 간의 기능적 관계가 명확하게 유사한 경우 비효율적 인 것 같습니다. 내가 분명히 이것을 믿는 상황에 대한이 kaggle 연습을 참조하십시오.

https://www.kaggle.com/c/bike-sharing-demand/data

이 문제에 접근하기위한 몇 가지 관련 기술이 있으며 X 변수에서 "인자"또는 "구성 요소"를 작성한 다음 Y를 예측하는 데 사용됩니다. SAS의이 문서 페이지는 저의 차이점을 해결하는 데 도움이되었습니다. 감소 된 순위 회귀는 반응과 예측 변수 사이의 변동을 최대로 고려하는 성분을 추출하는 부분 최소 제곱과 달리 반응 간의 변동을 최대로 설명하는 성분을 추출하는 것으로 보입니다.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm


+1. 맞습니다. 이 SAS 설명서 페이지와 특히 stats.stackexchange.com/questions/206587에 대한 답변에서이 수치에 대해 논의했습니다.
amoeba는 Reinstate Monica가
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.