선형 회귀 모델에서 모든 표본 관측을 반복하고 회귀를 다시 실행하면 결과에 어떤 영향이 있습니까?

15

N 개의 관측치, 여러 요인이있을 수 있고 각 관측치를 두 번 (또는 M 번) 반복한다고 가정 해 봅시다.이 새로운 크기의 NM 세트에 대한 회귀는 원래 관측치에 대한 회귀와 어떻게 비교됩니까?

regression linear-model multiple-regression

— 팰리스 찬
소스

13

개념 상, "새로운"정보를 추가하지 않지만 해당 정보를보다 정확하게 "알고"있습니다.

따라서 표준 오차가 더 작은 동일한 회귀 계수가 발생합니다.

예를 들어 Stata에서 x 확장 기능은 각 관측 값을 x 번 복제합니다 .

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

보시다시피, 이전에는 무의미한 계수 (길이)가 확장 된 모델에서 통계적으로 유의미 해져서 자신이 알고있는 것을 "알고있는"정밀도를 나타냅니다.

— pmgjones
소스

예, 표준 오류는 실제로 줄어 듭니다. 일부는 이것을 위해 가중 선형 회귀를 권장합니다.

— BBDynSys

3

승^{※} = {아르 민}_{승} | | 엑스 승 - 와이 | |^{2}

$w^* = \mbox{argmin}_w ||Xw - y||^2$

X

$X$

y

$y$

M

$M$

M

$M$

— 이 누오
소스

동의하지만 N에서 NM으로 변경하면 통계 및 표준 오류가 변경되어야한다고 생각합니까?

— Palace Chan

M * N - P

$M*N - P$

N

$N$

P

$P$

M

$M$ .

— Innuo