OLS 추정기가 척도 등변 량임을 보여주는가?


11

척도 등분 산에 대한 공식적인 정의는 없지만 통계 학습 입문에 대해 p. 217 :

표준 최소 제곱 계수는 스케일 등변 량입니다 . 에 상수 를 곱 하면 최소 제곱 계수 추정치의 배율이 의 계수로 이어집니다 .X jXj c c1 / c1/c

간략화를 들어, 일반 선형 모델을 가정하자 , , 는 \ mathbb {R} , \ boldsymbol \ beta \ in \ mathbb {R} ^ {p + 1}\의 모든 항목 이있는 N \ times (p + 1) 행렬 (여기서 p + 1 <N )입니다. boldsymbol \ epsilon\ mathbb {E} [\ boldsymbol \ epsilon] = \ mathbf {0} _ {N \ times 1} 인 실수 값 랜덤 변수 의 N 차원 벡터입니다 .y = X β + ϵ y=Xβ+ϵyR N yRNXX N × ( p + 1 ) N×(p+1)p + 1 < N p+1<NRR β R p + 1βRp+1 ϵ ϵN NE [ ϵ ] = 0 N × 1E[ϵ]=0N×1

OLS 추정을 통해 엑스X 전체 (열) 순위가 β X=(XTX)-1XTY.

β^X=(XTX)1XTy.
우리가 \ mathbf {X} 열을 곱 엑스X했다고 가정하면 , x kxkk { 1 , 2 , , p + 1 }k{1,2,,p+1} 에서 상수 c 0c0 . 이것은 행렬과 같습니다. X [ 11111 ]S=[x1x2cxkxp+1]X
X111c11S=[x1x2cxkxp+1]X~
매트릭스의 다른 엔트리 에스S 위에있는 00 , 및 c케이k 의 대각 엔트리의 제 에스S . 그때,~ XX~~ XX~새로운 디자인 매트릭스는 β ~ X =( ~ X T ~ X )-1 ~ X T의Y.
β^X~=(X~TX~)1X~Ty.
몇 가지 작업을 마친 후에는 ~ X T ~ X =[ x T 1 x 1 x T 1 x 2c x T 1 x kx T 1 x p + 1 x T 2 x 1 x T 2 x 2c x T 2 x kx T 2 x p + 1c x T k x 1 c x T k x 2c 2 x T k x kc x T k x p + 1x T p + 1 x 1 x T p + 1 x 2c x T p + 1 x p +1 x T p + 1 x p + 1 ]
X~TX~=xT1x1xT2x1cxTkx1xTp+1x1xT1x2xT2x2cxTkx2xTp+1x2cxT1xkcxT2xkc2xTkxkcxTp+1xp+1xT1xp+1xT2xp+1cxTkxp+1xTp+1xp+1
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} 및 ~ X Ty=[ x T 1 y x T 2 yc x T k yx T p + 1 y ]
X~Ty=xT1yxT2ycxTkyxTp+1y
위에서 인용 한 주장을 보여주기 위해 여기에서 어떻게 가야합니까 (즉, β ~ X =1C β Xβ^X~=1cβ^X )? (\ tilde {\ mathbf {X}} ^ {T} \ tilde {\ mathbf {X}}) ^ {-1} 계산 방법은 확실하지 않습니다 ( ~ X T ~ X ) - 1(X~TX~)1.

내가 생각하는 당신의 바로, 그것은 실종되지 않는 전체 행에 승수를. ~ X T ~ X cX~TX~c
Firebug

1
또한, 마음에 곰 주장이다 이 아니라 모든이 . β K,새로운=1C β K,이전ββ^k,new=1cβ^k,oldβ
Firebug

@Firebug Yep, 방금 알아 냈습니다. 답변을 게시하고 있습니다.
Clarinetist

2
사용자가 교체 할 수 있는 모든 승산 때문에, 훨씬 단순한 단위 분석하여 대수 하여 단지 측정의 단위를 변경하고 따라서 그 계수와 연관된 장치에 대응하는 변화 하여 분할한다 . 불행히도 를 로 는 것을 증명하지는 않습니다 . 그러나이 생각의 연쇄는 한 번에 한 회귀 자에 대해 연속 회귀를 통해 다중 회귀를 수행 할 수 있음을 상기시켜 줄 수 있습니다. 여기서 가 로 나뉘어져 있으므로 증명이 완료됩니다. X J C β J C β J C β J CXjcβjcβ^jcβ^jc
우버

@ whuber, 결과에 대한 직감은 분명하지만 증거를 제공하는 데 약간의 대수가 있어야합니다. 결국, 스케일링 계수 는 반전되어야합니다. c
user795305

답변:


11

인용의 주장 은 의 열 크기를 재조정하는 것에 대한 문장 의 모음 이므로 한 번에 모두 증명할 수도 있습니다. 실제로 어설 션의 일반화를 증명하기 위해 더 이상 노력할 필요가 없습니다.엑스X

경우 가역 행렬 오른쪽 곱X β β - 1XA , 새로운 계수 추정치 같은지 의해 승산 왼쪽 .β^Aβ^A1

필요한 대수적 사실은 행렬 및 역변환 행렬에 대한 및 . (일반화 된 역으로 작업 할 때 후자의 미묘한 버전이 필요합니다( B ) ' = B ' ' B ( B ) - 1 = B - 1 - 1 B(AB)=BAAB(AB)1=B1A1ABA 및 및 모든 경우 . )B X ( A X B ) = B 1 X A 1BX(AXB)=B1XA1


대수 증명 :β A는=((XA는)'((X))-(X)'Y는=-1(X'X)-(A는')-1A는'Y는=-1 β를 ,

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED. (이 증명을 완전히 일반화하기 위해 위첨자는 일반화 된 역을 나타냅니다.)


형상 별 증명 :

및 밑이 및 인 경우 는 에서 까지의 선형 변환을 나타냅니다 . 와 곱셈은 이 변환을 고정 된 상태로 유지 하지만 를 (즉, 의 열)로 변경하는 것으로 간주 할 수 있습니다 . 그 기초의 변화에 ​​따라E p E n R n R p X R p R n X AEpEnRnRpXRpRnXAE p A E p AEpAEpA 모든 벡터 왼쪽 승산 통해 변경해야 ,βRP-1β^RpA1QED .

(이 증명은 가 되돌릴 수없는 경우에도 수정되지 않은 상태로 작동합니다 .)X ' XXX


인용은 구체적 으로 대해 이고 인 대각선 행렬 의 경우를 나타냅니다 .A A i i = 1 i j A j j = cAAii=1ijAjj=c


최소 제곱으로 연결

여기서 목표는 첫 번째 원리를 사용하여 결과를 얻는 것입니다. 원리는 최소 제곱의 원리입니다. 잔차 제곱의 합을 최소화하는 계수 추정입니다.

다시 말하지만, (거대한) 일반화를 증명하는 것은 더 이상 어렵지 않으며 오히려 드러납니다. 가정 실제 벡터 공간의 모든 맵 (선형 또는하지 않음)이고 가정 어떠한 실수 함수 . 하자 점의 (하늘의) 세트는 수 하는ϕ : V pW n Q W n U V p v Q ( ϕ ( v ) )

ϕ:VpWn
QWnUVpvQ(ϕ(v)) 최소화된다.

결과 : 는 와 의해서만 결정 되며 벡터를 나타내는 데 사용되는 기본 선택에 의존하지 않습니다.U Q ϕ E p V pUQϕEpVp .

증명: QED.

증명할 것이 없습니다!

결과의 응용 : 하자 긍정적 semidefinite 차 형태 일 ,하자 및 가정 되는 선형으로 표시하는지도 때의 염기 및 이 선택됩니다. 정의하십시오 . 의 기준을 선택하고 가 그 기준으로 일부 의 표현 이라고 가정하십시오 . 이것은 최소 제곱입니다 . 는 제곱 거리 최소화합니다 . 때문에F R N Y R N φ X의 V의 P = R (P) W N = R N Q ( X ) = F ( Y , X ) R , P β V UFRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUX = X β F ( Y , X ) Xx=Xβ^F(y,x)X는 의 기초를 변경하는 선형 맵으로,R의 PRp 에 비가역 행렬 를 오른쪽 곱하는 것에 해당합니다 . 에 , QED를 곱하면됩니다 .X β - 1XAβ^A1


6

최소 제곱 추정량 . 여기서 설계 행렬 가 전체 순위입니다. 스케일링 행렬 가 돌이킬 수 없다고 가정합니다 .ˆβ=argminβRpyXβ22β^=argminβRpyXβ22XRn×pXRn×pSRp×pSRp×p

이 새로운 스케일 추정량 . 이것은 모든 대해 입니다 . 정의 위와 같이, 우리는 다시 작성할 수 있습니다이 표시 불평등 모든 . 따라서 이므로 최소 제곱 추정기 따릅니다. 스케일링 행렬의 반전으로 인해˜α=argminαRpyXSα22α~=argminαRpyXSα22yXS˜α22<yXSα22

yXSα~22<yXSα22
α˜ααα~˜β=S˜αβ~=Sα~yX˜β22<yXβ22
yXβ~22<yXβ22
β˜βββ~˜β=argminβRpyXβ22β~=argminβRpyXβ22ˆβ=˜β=S˜α.
β^=β~=Sα~.
SS 따릅니다 . 우리의 경우에서이 만 다르다 바이 항목으로 축소되는 .˜α=S1ˆβα~=S1β^ˆββ^kthkth1c1c

1
및 이와 유사한 함수 를 다루는 데 익숙하지는 않습니다. 두 번째 방정식에서 세 번째 방정식으로의 전환을 설명 할 수 있습니까? arg minarg min
Clarinetist

나는 조금 다르게 작성하여 단계를보다 명확하게해야합니다.
user795305

이것은 정말 영리합니다. (+1)
Clarinetist

4

나는 질문을 게시 한 후 이것을 알아 냈습니다. 그러나 내 일이 정확하다면 나는 그 주장을 잘못 해석했다. 만 스케일링의 하나 개의 구성 요소에서 발생 의 열에 대응 승산되는 .1c1cββXXcc

공지 것을 위의 표기법은, 대각선 대칭이다 행렬과 (이 대각선 때문에) 역을 갖는다 참고 은 행렬입니다. 하자가 생각하는 SS(p+1)×(p+1)(p+1)×(p+1)S1=[1111c11].

S1=1111c11.
(˜XT˜X)1(X~TX~)1(p+1)×(p+1)(p+1)×(p+1)(XTX)1=[z1z2zkzp+1].
(XTX)1=[z1z2zkzp+1].
(˜XT˜X)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
따라서 그리고 이것을 은 에 곱한 것과 비슷한 효과를냅니다 . : S1(XTX)1=[z1z21czkzp+1]
S1(XTX)1=z1z21czkzp+1
S1S1XXSS1czk1czk1c1cS1(XTX)1S1=[z1z21c2zkzp+1].
S1(XTX)1S1=z1z21c2zkzp+1.
따라서 ˆβ˜X=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][xT1yxT2ycxTkyxTp+1y]=[z1xT1yz2xT2y1czkxTkyzp+1xTp+1y]
β^X~=S1(XTX)1S1(XS)Ty=z1z21c2zkzp+1xT1yxT2ycxTkyxTp+1y=z1xT1yz2xT2y1czkxTkyzp+1xTp+1y
원하는대로.

오타에있다 입니다. 당신은 전치 필요 . S1(XTX)1S1(XS)yS1(XTX)1S1(XS)y(XS)(XS)
JohnK

3

가장 사소한 증거

선형 방정식으로 시작합니다. 이제 회귀 자의 스케일을 변경하려고합니다. 미터법에서 영국식으로 변환하고 킬로그램에서 파운드, 미터에서 야드 등을 알고 있습니다. 변환 행렬이 경우 각 는 설계 행렬 변수 (열) 에 대한 변환 계수입니다.Y=Xβ+ε

Y=Xβ+ε
S=diag(s1,s1,,sn)S=diag(s1,s1,,sn)sisiiiXX .

방정식을 다시 작성해 봅시다 : Y=(XS)(S1β)+ε

Y=(XS)(S1β)+ε

스케일링은 계수 추정의 OLS 방법이 아니라 방정식의 선형성의 속성이라는 것이 매우 분명합니다. 선형 방정식을 사용한 추정 방법에 관계없이 회귀 분석기가 로 스케일링 될 때 새로운 계수는 로 스케일링되어야합니다.XSXSS1βS1β

대수에 의한 OLS 전용 증명

스케일링은 다음과 같습니다. 여기서 각 변수의 스케일 팩터 (열) 및 는 스케일링 된 버전 입니다. 대각 스케일 매트릭스 . 이다 추정 귀하의 OLS 하자 플러그 스케일 행렬 대신 일부 사용 행렬 대수 : 따라서 새 계수가 예상대로 기존 계수가 어떻게 축소되었는지를 알 수 있습니다.Z=Xdiag(s1,s2,...,sn)

Z=Xdiag(s1,s2,...,sn)
sisiZZXXSdiag(s1,s2,...,sn)Sdiag(s1,s2,...,sn)ˆβ=(XTX)1XTY
β^=(XTX)1XTY
ZZXX(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1ˆβ
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
나는 당신의 접근 방식을 좋아하지만 "가장 사소한 증거"라는 확신을 갖지 못합니다. 재 작성된 모델이 원래 모델과 동일해야 함을 암시 적으로 가정하고 여전히 보여줄 필요가 있습니다. 더 엄격하게 설명하려면 피팅 절차 를 함수 , 여기서 은 가능한 모든 데이터 세트 순서 쌍 로 쓸 수 )이고 는 가능한 모든 계수 추정치 세트입니다. 모두에 대한 가역 , 모든 및 모든 . (항상 그렇지는 않습니다!)δ:MRpδ:MRpMM(X,Y)(X,Y)RpRpδ(X,Y)=S1δ(XS,Y)δ(X,Y)=S1δ(XS,Y)SSXXYY
whuber

@ whuber, 실제로는 다른 방법입니다 : 합리적인 피팅 절차는이 조건을 충족해야합니다. 그렇지 않으면 간단한 측정 단위 변경으로 인해 다른 예측 / 추정이 생성됩니다. 난 내 대답을 업데이트하고 조금 생각합니다
Aksakal

동의하지만 가 전체 순위가 아닌 경우 예외를 상상할 수 있습니다 . 그것이 나에게 상황이 생각보다 사소한 것은 아니라고 제안한 것입니다. XX
whuber

3
왕실이 아닌 제국 배우자 ... : D (Nice answer, +1)
usεr11852

@ usεr11852, 나는 :) 오늘 뭔가를 배웠
Aksakal

2

이 결과를 얻는 쉬운 방법은 가 의 열 공간에서 의 투영 이라는 것을 기억하는 것 는 가 선형으로 표현 될 때 계수의 벡터입니다 의 열 조합 . 일부 열이 인수 로 스케일링되는 경우 선형 조합의 해당 계수가 스케일링되어야합니다 .ˆyy^yyX.X. ˆββ^ˆyy^XXc1/c

하자 의 값일 및 한 컬럼에 의해 스케일링 될 때 OLS 용액의 값일biˆβaic. b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

그 의미 여기서 및 의 열 가정 선형 독립적이다.bj=ajjibi=aicX

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.