최소 제곱 추정기의 분산에서 항에 대한 직관적 인 설명


18

경우 전체 순위의 역은 존재하고 우리는 최소 제곱 추정 얻을 : 및X T X β = ( X T X ) - 1 X Y 바르 ( β ) = σ 2 ( X T X ) - 1XXTX

β^=(XTX)1XY
Var(β^)=σ2(XTX)1

분산 공식에서 을 직관적으로 설명하는 방법은 무엇입니까? 파생 기술은 분명합니다.(XTX)1


3
당신은 수식이의 분산 - 공분산 행렬에 대해 언급 한 것을 지적하는 메모를 추가 할 수 있습니다 가정 - OLS에 의해 추정된다 - 올바른 경우에만 경우 가우스-마코프 정리의 조건은 만족되며, 특히 오류 항의 분산-공분산 행렬이 의해 주어진 경우에만 , 여기서 I_nn \ times n 항등 행렬이고 nX (와 Y )의 행 . 당신이 제공 한 공식은 하지 않은 구형 오류의 일반적인 경우에 대한 올바른. β σ2ININN×NNXYβ^β^σ2InInn×nnXY
Mico

답변:


13

항이 일정하지 않고 단일 회귀가 표본 평균의 중심에있는 간단한 회귀를 고려하십시오. 그러면 는 표본 분산이고 ( ), 그리고 은 직선입니다. 따라서 회귀 변수의 분산 = 변동성이 높을수록 계수 추정기의 분산이 낮아집니다. 설명 변수에 변동성이 많을수록 미지의 계수를 더 정확하게 추정 할 수 있습니다. N ( X ' X ) - 1XXn(XX)1

왜? 회귀 변수가 다양할수록 더 많은 정보가 포함됩니다. 회귀자가 많으면 회귀의 공분산을 고려한 분산-공분산 행렬의 역으로 ​​일반화됩니다. 가 대각선 인 극단적 인 경우 각 추정 계수의 정밀도는 연관된 회귀 변수의 분산 / 변동성에만 의존합니다 (오류 항의 변동이 제공됨).XX


이 인수를 분산 공분산 행렬의 역수가 부분 상관 관계를 산출 한다는 사실과 관련이 있습니까?
Heisenberg

5

보는 간단한 방법 의 매트릭스이다 (변수) 아날로그 σ 2σ2(XTX)1 , 이것은 단순한 OLS 회귀에서 기울기 계수의 분산입니다. 하나는σ2를얻을 수 있습니다σ2i=1n(XiX¯)2 모형에서 절편을 생략함으로써, 즉 원점을 통해 회귀를 수행함으로써 해당 분산에 대해.σ2i=1nXi2

이들 식 중 하나로부터 예측 변수의 큰 변동성은 일반적으로 계수의보다 정확한 추정으로 이어질 수 있음을 알 수있다. 이것은 (랜덤이 아닌) 예측 변수에 대한 값을 선택함으로써 의 결정자를 최대한 크게 만들려고 시도하는 실험 설계에서 종종 활용됩니다. 결정자 는 변동성의 척도입니다.(XTX)


2

가우스 랜덤 변수의 선형 변환이 도움이됩니까? 이면 A x + b ~ N ( A μ + b , A T Σ A ) 규칙을 사용합니다 .xN(μ,Σ)Ax+b N(Aμ+b,ATΣA)

있다는 가정 기본 모델이다 ε ~ N ( 0 , σ 2 ) .Y=Xβ+ϵϵ(0,σ2)

와이(엑스β,σ2)엑스와이(엑스엑스β,엑스σ2엑스)(엑스엑스)1엑스와이[β,(엑스엑스)1σ2]

따라서 Y 의 분포를 변환하는 복잡한 스케일링 행렬입니다 .(엑스엑스)1엑스와이

도움이 되었기를 바랍니다.


OLS 추정기의 파생 및 분산에는 오류 항의 정규성이 필요하지 않습니다. 필요한 사용자들은 모든입니다 E ( ε ε T ) = σ 2 I n은 . (물론, OLS가 Cramer-Rao 하한을 달성했음을 보여 주려면 정규성 필요하지만, OP의 게시 내용이 아닙니다.)E(ε)=0E(εεT)=σ2In
Mico

2

수식 Var의 기초가되는 직관 을 개발하기 위해 다른 접근법을 사용하겠습니다.. 다중 회귀 모형에 대한 직관을 개발할 때는 이변 량 선형 회귀 모형 인viz를 고려하면 도움이됩니다. ,yi=α+βxi+εi,Varβ^=σ2(XX)1α + β x i 는 종종 y i에 대한 결정론적 기여라고하며, ε i 는 확률 론적 기여라고합니다. 표본 평균 ( ˉ x , ˉ y ) 과의 편차로 표현하면이 모형은 ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)
(와이나는와이¯)=β(엑스나는엑스¯)+(ε나는ε¯),나는=1,,.

도움이되는 직관을 개발, 우리는 간단한 가우스 - 마르코프 가정이 만족하는 것으로 가정합니다 : nonstochastic, Σ n은 내가 = 1 ( X - ˉ X ) 2 > 0 모든 N , 및 ε ~ IID ( 0 , σ 2 ) 모두 i = 1 , , n 입니다. 이미 잘 알고 있듯이 이러한 조건은 Var이엑스나는나는=1(엑스나는엑스¯)2>0ε나는이드(0,σ2)나는=1,, 여기서 Var

바르β^=1σ2(바르엑스)1,
의 분산이다 샘플 X . 즉,이 식 세 주장한다 : "의 분산 β는 시료의 크기에 반비례 N , 그것의 분산에 비례 ε , 그것은의 변화에 반비례 X ."바르엑스엑스β^ε엑스

왜, 샘플 크기를 두 배로해야 paribus을 다른 조건 의 변화 원인, β는 반으로 잘라을 할 수 있나요? 이 결과는 친밀에 적용되는 IID 가정에 연결되어 ε : 개별 오류가 IID로 간주되기 때문에, 각각의 관찰은 치료를해야 전 분담금을 동등하게 정보로서. 그리고 관측치 수를 두 배로 늘리면 xy 사이의 (가정 된 선형) 관계를 설명하는 모수에 대한 정보의 양이 두 배가 됩니다. 두 배의 정보가 있으면 매개 변수에 대한 불확실성이 절반으로 줄어 듭니다. 마찬가지로, 왜 배가되는지에 대한 직관을 발전시키는 것이 간단해야합니다.β^ε엑스와이 도의 편차 배가 β를 .σ2β^

하자의 차례, 다음의 분산이라는 주장에 대한 직관을 개발에 관한 주요 질문에 β가 있다 반비례 의 분산에 X . 개념을 공식화하기 위해 지금부터 Model ( 1 ) 과 Model ( 2 ) 라는 두 개의 개별 이변 량 선형 회귀 모델을 고려해 보겠습니다 . 두 모델이 가장 단순한 형태의 가우스-마코프 정리의 가정을 만족하고 모델이 정확히 동일한 α , β , nσ 2 값을 공유한다고 가정 합니다. 이러한 가정 하에서 E가β^엑스(1)(2)αβσ2; 다시 말해, 두 추정치는 모두 편견이 없습니다. 결정적으로, 우리는 또한 가정하는 반면 ˉ X ( 1 ) = ˉ X ( 2 ) = ˉ X ,바르이자형β^(1)=이자형β^(2)=β엑스¯(1)=엑스¯(2)=엑스¯ . 일반성을 잃지 않고 Var을바르엑스(1)바르엑스(2) . 어떤 추정 β는 작은 차이가 있습니까? 다르게 말하면, 것 β바르엑스(1)>바르엑스(2)β^ 또는 ββ^(1) 평균적으로β더 가깝습니까? 이전 토론에서 우리는Varβ^(2)β에 대한K=1,2. Var때문에바르β^(케이)=1σ2/바르엑스(케이))케이=1,2 는 가정에 따라 Var바르엑스(1)>바르엑스(2) . 그렇다면이 결과의 직관은 무엇입니까?바르β^(1)<바르β^(2)

가정에 의해 , 평균 각 x ( 1 ) i 는평균 x ( 2 ) i 의 경우보다 ˉ x 에서멀어 질것이다. x i ˉ x 사이의 예상 평균 절대 차이를 d x로 표시하겠습니다. Var 이 가정바르엑스(1)>바르엑스(2)엑스나는(1)엑스¯엑스나는(2)엑스나는엑스¯엑스 d ( 1 ) x > d ( 2 ) x를 의미 합니다. 수단으로부터의 편차로 표현 회귀 선형 변량, 미국 거라고 Y는 = β (D) ( 1 ) X 모델의 ( 1 ) (D) Y가 = β (D) ( 2 ) X 모델의 ( 2 ) . β 0 인 경우바르엑스(1)>바르엑스(2)엑스(1)>엑스(2)와이=β엑스(1)(1)와이=β엑스(2)(2)β0, 모델의 결정적 요소 있음이 수단 , β (D) ( 1 ) X가 가지고 큰 영향개발 Y 모델의 결정적 요소보다 ( 2 ) , β (D) ( 2 ) X가 . 두 모델 모두 가우스-마코프 가정을 만족한다고 가정하고, 오차 분산은 두 모델에서 동일하며, β ( 1 ) = β ( 2 ) = β 입니다. 모델 이후(1)β엑스(1)와이(2)β엑스(2)β(1)=β(2)=β 의 결정 성분의 기여에 대한 자세한 정보가 부여 예를 모델보다 ( 2 ) ,가 있는지 다음정밀도결정적 기여도를 추정 할 수있는 모델에 대한 크 ( 1 ) 모델의 경우보다 ( 2 ) . 더 큰 정밀도의 반대는 β 점 추정치의 분산이 낮다는 것입니다.(1)와이(2)(1)(2)β

단순 회귀 모델을 연구하여 얻은 직관을 일반 다중 선형 회귀 모델로 일반화하는 것은 상당히 간단합니다. 주요 합병증은 스칼라 분산을 비교하는 대신 분산-공분산 행렬의 "크기"를 비교해야한다는 것입니다. 실제 대칭 행렬의 결정 요인, 미량 및 고유 값에 대한 실무 지식이 있으면이 시점에서 매우 유용합니다.


1

관측치 (또는 표본 크기)와 p 매개 변수 가 있다고 가정 합니다.

공분산 행렬 의 추정은 파라미터 β 1 , β 2 등 파라미터 추정의 정확도의 표시이다.바르(β^)β^1,β^2

이상적인 세계에서 데이터를 모델로 완벽하게 설명 할 수 있으면 노이즈는 입니다. 지금의 대각선 엔트리 바르 ( β ) 에 대응 바르 ( ^ β 1 ) , 바르 ( ^ β 2 ) 등의 분산을위한 유도 식 노이즈가 낮은 경우, 예상보다 것이라고 직관 동의 정확한.σ2=0바르(β^)바르(β1^),바르(β2^)

또한 측정 수가 많아 질수록 추정 된 변수의 분산이 줄어 듭니다. 따라서, 전체의 항목의 절대 값이 의 열의 수와 같이 높을 것이다 X T가N 과의 행의 수 X가N 과 각 항목 X T X가 의 합계 인 N 개의 제품 한 쌍. 역의 항목의 절대 값 ( X T X ) - 1 것 이하이다.엑스엑스엑스엑스엑스엑스(엑스엑스)1

β나는^

이게 도움이 되길 바란다.

참조 : 최소 제곱에 대한 섹션 7.3 : Cosentino, Carlo 및 Declan Bates. 시스템 생물학의 피드백 제어. Crc Press, 2011.


1

이것은 @Alecos Papadopuolos의 답변을 기반으로합니다.

최소 제곱 회귀의 결과는 변수의 측정 단위에 의존하지 않습니다. X 변수가 인치 단위의 길이 측정이라고 가정하십시오. 그런 다음 X의 크기를 재조정하면 (예 : 2.54를 곱하여 단위를 센티미터로 변경) 실질적으로 영향을 미치지 않습니다. 모형을 다시 맞추면 새 회귀 추정치는 기존 추정치 를 2.54 로 나눈 값이 됩니다.

XXβXX

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.