정규 최소 제곱 대 총 최소 제곱
먼저 하나의 예측 변수 (독립) 변수 의 가장 간단한 경우를 생각해 봅시다 . 간단히하기 위해, x 와 y를 모두 중심에 두십시오 . 즉 절편은 항상 0입니다. 표준 OLS 회귀와 "직교"TLS 회귀의 차이점은 PCA에서 가장 많이 사용되는 스레드에서 가장 많이 사용 된 답변 의이 그림에 나와 있습니다 .xxy
OLS의 적합한 식 관측 값 간의 제곱 된 거리를 최소화함으로써 , Y가 예측 된 값 Y를 . TLS 간의 제곱 된 거리를 최소화하여 같은 식에 적합 ( X , Y가 ) (y=βx와이와이^( x , y) 점과 선의 투영 . 이 가장 단순한 경우에 TLS 라인은 단순히 2D 데이터의 첫 번째 주요 구성 요소입니다. 를 찾으려면 ( x , y ) 점에서 PCA를 수행하십시오 . 즉, 2 × 2 공분산 행렬 Σ을 구성 하고 첫 번째 고유 벡터 v =β( x , y)2 × 2Σ ; 그런 다음 β = v y / v x 입니다.v =( v엑스, v와이)β= v와이/ v엑스
Matlab에서 :
v = pca([x y]); //# x and y are centered column vectors
beta = v(2,1)/v(1,1);
R에서 :
v <- prcomp(cbind(x,y))$rotation
beta <- v[2,1]/v[1,1]
그런데, 내장 PCA 기능이 자동으로 센터링을 수행하기 때문에 와 y 가 가운데에 있지 않더라도 올바른 경사를 얻을 수 있습니다. 절편을 복구하려면 β를 계산하십시오.엑스와이 .β0= y¯− β엑스¯
OLS 대 TLS, 다중 회귀
종속 변수 와 많은 독립 변수 x i (다시 말하면 모두 단순성을 위해 중심이 됨)가 주어지면 회귀는 방정식 y = β 1 x 1 + … + β p x p에 적합 합니다. OLS는 관측 된 값 사이의 제곱 오차 최소화하여 착용감을 수행 Y 및 예측값을와이엑스나는
와이= β1엑스1+ … + β피엑스피.
와이. TLS는 관측 사이의 제곱 거리를 최소화하여 착용감을 수행
(X,Y)∈RP+1와이^( x ,y) ∈ R피+ 1 회귀 평면 / 초평면의 점과 가장 가까운 점.
더 이상 "회귀선"이 없습니다. 위의 방정식은 초평면을 지정합니다 . 예측기가 2 개인 경우 2D 평면이고, 예측자가 3 개인 경우 3D 초평면입니다. 따라서 위의 해결책은 효과가 없습니다. 첫 번째 PC 만 가져 와서 TLS 솔루션을 얻을 수는 없습니다. 라인). 그래도 PCA를 통해 솔루션을 쉽게 얻을 수 있습니다.
이전과 마찬가지로 PCA는 지점 에서 수행됩니다 . V의 열에 p + 1 고유 벡터가 생성 됩니다. 제 P의 고유 벡터가 정의 P 차원 초평면의 H 우리가 필요로하는 단계; 마지막 (숫자 p + 1 ) 고유 벡터 v p + 1 은 직교합니다. 질문에 의거하여 변환하는 방법은 H 제 주어진 P의 에 고유 벡터 β의 계수.( x ,y)p + 1V피피Hp + 1Vp + 1H피β
우리가 설정된 경우 관찰 모든 난 ≠ k는 단지 X K = 1 다음, Y = β (K) , 즉, 벡터 ( 0 , ... , 1 , ... , β K ) ∈ H의 초평면의에 놓여 H . 반면에, 우리는 그 v를 알고 있습니다엑스나는= 0나는 ≠ k엑스케이= 1와이^= β케이
( 0 , … , 1 , … , β케이) ∈ H
H 는 그것에 직교합니다. 즉 자신의 내적 제로 여야
브이 K + β 케이 브이 P + 1 = 0 ⇒ β K = - (V)의 K / V의 P + 1 .Vp + 1= ( v1, … , vp + 1)⊥H
V케이+ β케이Vp + 1= 0 ⇒ β케이= − v케이/ vp + 1.
Matlab에서 :
v = pca([X y]); //# X is a centered n-times-p matrix, y is n-times-1 column vector
beta = -v(1:end-1,end)/v(end,end);
R에서 :
v <- prcomp(cbind(X,y))$rotation
beta <- -v[-ncol(v),ncol(v)] / v[ncol(v),ncol(v)]
다시 말하지만, 내장 PCA 기능이 자동으로 센터링을 수행하기 때문에 와 y 가 가운데에 있지 않더라도 올바른 기울기가 나타납니다 . 절편을 복구하려면 β 0 = ˉ y − ˉ x β를 계산하십시오 .엑스와이β0= y¯− x¯β
엑스( x , y)V( 1 )와이/ v( 1 )엑스= − v( 2 )엑스/ v( 2 )와이
TLS를위한 폐쇄 형 솔루션
β
엑스와이Vp + 1[ Xy ]σ2p + 1− vp + 1/ vp + 1= ( β− 1 )⊤
( X⊤엑스와이⊤엑스엑스⊤와이와이⊤와이) ( β− 1) = σ2p + 1( β− 1) ,
βT L S= ( X⊤X − σ2p + 1나 )− 1엑스⊤y ,
βO L S= ( X⊤X )− 1엑스⊤y .
다변량 다중 회귀
다변량 사례에 대해 동일한 공식을 일반화 할 수 있지만 다변량 TLS의 기능 을 정의하기 위해서는 대수학이 필요합니다. TLS에 위키 백과를 참조하십시오 . 다변량 OLS 회귀는 각 종속 변수에 대한 일 변량 OLS 회귀에 해당하지만 TLS의 경우에는 그렇지 않습니다.