1. RRR (Ranked Rank Regression)이란 무엇입니까?
다변량 다중 선형 회귀, 즉 독립 변수 및 q 종속 변수를 사용한 회귀를 고려하십시오 . 하자 X 및 Y는 예측기 (중심이되는 N × P )과 응답 ( N × Q ) 데이터 세트. 그런 다음 일반적인 일반 최소 제곱 (OLS) 회귀는 다음과 같은 비용 함수를 최소화하도록 공식화 할 수 있습니다.pqXYn×pn×q
L=∥Y−XB∥2,
여기서 는 회귀 가중치 의 p × q 행렬입니다. 그 용액에 의해 주어진다 B O L S = ( X ⊤ X ) - 1 X ⊤ Y , 및 그것하고 동등한 것을 쉽게 알 수있다 Q 분리 OLS 회귀 각 종속 변수 하나.Bp × q
비^O L S= ( X⊤X )− 1엑스⊤Y ,
큐
감소 된 순위 회귀는 순위 제약 조건을 도입합니다 . 즉, L 은 순위 ( B ) ≤ r 로 최소화해야합니다 . 여기서 r 은 B 의 최대 허용 순위입니다 .비엘계급( B ) ≤ R아르 자형비
2. RRR 솔루션을 얻는 방법?
RRR은 고유 벡터 문제로 캐스팅 될 수 있습니다. 실제로 OLS는의 열 공간에 정사영 필수적이라는 사실 사용하여 , 우리는 다시 쓸 수 L을 같은 L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . 첫 번째 항은에 의존하지 않는 B 및 두 번째 항은 피팅 값 SVD / PCA에 의해 최소화 될 수있다 Y = X B엑스엘
L = ∥ Y − X B^O LS∥2+ ∥ X B^O LS− X B ∥2.
비 .
와이^= X B^O L S
구체적으로, 만일 최초로 R 의 주축 Y를 다음 B R R R = B O L S U R U ⊤ R .유아르 자형아르 자형Y^
B^RRR=B^OLSUrU⊤r.
3. RRR이 좋은 이유는 무엇입니까?
RRR을 사용해야하는 두 가지 이유가 있습니다.
Br
둘째, 차원 축소 / 데이터 탐색 방법으로 사용할 수 있습니다. 예측 변수가 많고 종속 변수가 많으면 RRR은 예측 변수 공간에 "잠재적 요인"을 구성하여 DV의 분산을 설명하는 데 가장 효과적입니다. 내가 알고있는 한, 이것은 RRR이 중복 분석으로 알려져 있고 그들이 안수 방법 이라고 부르는 예의 생태학에서 일상적으로 수행됩니다 ( 여기 @GavinSimpson의 답변 참조). ).
4. 다른 차원 축소 방법과의 관계
RRR은 CCA 및 PLS와 같은 다른 차원 축소 방법과 밀접하게 연결되어 있습니다. 나는 그것을 내 대답에 약간의 커버 부분 최소 제곱, 감소 된 순위 회귀와 주성분 회귀 사이의 연결은 무엇을?
XYn×pn×qw∈RpXv∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
자세한 내용은 거기를 참조하십시오.
대부분의 일반적인 선형 다변량 방법 (예 : PCA, CCA, LDA, PLS는 아님)을 RRR로 볼 수있는 방법에 대한 자세한 처리는 Torre, 2009, 성분 분석 을 위한 최소 제곱 프레임 워크를 참조하십시오 .
5. 왜 Hastie et al. 너무 혼란 스럽습니까?
L=∥Y−XB∥2,
L=∥(Y−XB)(Y⊤Y)−1/2∥2,
YY희게되면 차이가 사라집니다. Hastie et al. RRR 호출은 실제로 위장의 CCA입니다 (실제로 3.69 참조).
이 섹션에서는 그 중 어느 것도 올바르게 설명되지 않으므로 혼란이 있습니다.
친숙한 튜토리얼에 대한 저의 답변을 보거나 더 읽을 수있는 감소 된 회귀에 대한 소개를보십시오 .