rlm () 회귀 계수 추정치가 R의 lm ()과 다른 이유는 무엇입니까?


15

R MASS 패키지에서 rlm을 사용하여 다변량 선형 모델을 회귀하고 있습니다. 그것은 많은 샘플에서 잘 작동하지만 특정 모델에 대한 준 널 계수를 얻습니다.

Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit)
Residuals:
       Min         1Q     Median         3Q        Max 
-7.981e+01 -6.022e-03 -1.696e-04  8.458e-03  7.706e+01 

Coefficients:
             Value    Std. Error t value 
(Intercept)    0.0002   0.0001     1.8418
X1             0.0004   0.0000    13.4478
X2            -0.0004   0.0000   -23.1100
X3            -0.0001   0.0002    -0.5511
X4             0.0006   0.0001     8.1489

Residual standard error: 0.01086 on 49052 degrees of freedom
  (83 observations deleted due to missingness)

비교를 위해 다음은 lm ()에 의해 계산 된 계수입니다.

Call:
lm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, na.action = na.omit)

Residuals:
    Min      1Q  Median      3Q     Max 
-76.784  -0.459   0.017   0.538  78.665 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -0.016633   0.011622  -1.431    0.152    
X1            0.046897   0.004172  11.240  < 2e-16 ***
X2           -0.054944   0.002184 -25.155  < 2e-16 ***
X3            0.022627   0.019496   1.161    0.246    
X4            0.051336   0.009952   5.159  2.5e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 2.574 on 49052 degrees of freedom
  (83 observations deleted due to missingness)
Multiple R-squared: 0.0182, Adjusted R-squared: 0.01812 
F-statistic: 227.3 on 4 and 49052 DF,  p-value: < 2.2e-16 

lm의 거리는 Cook의 거리로 측정 할 때 특히 높은 특이 치를 나타내지 않습니다.

lm 진단

편집하다

참고로 Macro가 제공 한 응답을 기반으로 결과를 확인한 후 kHuber 추정기에서 튜닝 매개 변수를 설정하는 R 명령 은 ( k=100이 경우)입니다.

rlm(y ~ x, psi = psi.huber, k = 100)

잔차 표준 오차는 다른 정보와 함께 rlm가중치 함수가 거의 모든 관측 값을 버리는 것처럼 보입니다. 두 회귀 분석에서 Y가 같습니까? (그냥 확인 ...) 시도 method="MM"당신에 rlm(실패 할 경우) 다음 시도, 호출 psi=psi.huber(k=2.5)하는 스프레드 아웃 (2.5 기본 1.345보다 단지 더 큰, 임의) lm가중 함수의 -like 지역.
jbowman

@jbowman Y가 맞습니다. MM 방법을 추가했습니다. 나의 직감은 당신이 언급 한 것과 같습니다. 이 모델 잔차는 내가 시도한 다른 모델에 비해 상대적으로 작습니다. 방법론이 대부분의 관측치를 버리고있는 것 같습니다.
Robert Kubrick

1
@RobertKubrick 당신은 k를 100으로 설정하는 것이 무엇을 의미 하는지 이해 합니까?
user603

이를 기반으로 : 다중 R 제곱 : 0.0182, 조정 R 제곱 : 0.01812 모델을 한 번 더 검사해야합니다. 특이 치, 반응 또는 예측 변수의 변환 또는 비선형 모델을 고려해야합니다. 예측 자 X3은 중요하지 않습니다. 당신이 만든 것은 좋은 선형 모델이 아닙니다.
Marija Milojevic

답변:


15

rlm()미디엄lm()

M

i=1nρ(YiXiβσ)

의 함수로 , 여기서 는 번째 응답이고 는 개별 대한 예측 변수입니다 . 경우 최소 제곱은 특별한 경우입니다. 그러나 사용중인 것으로 보이는 기본 설정 은 Huber estimator입니다.βYiiXii

ρ(x)=x2
rlm()M

ρ(x)={12x2if |x|kk|x|12k2if |x|>k.

여기서 는 상수입니다. 기본값 은 입니다. 이 두 추정기는 서로 다른 기준을 최소화하므로 추정치가 다른 것은 놀라운 일이 아닙니다.krlm()k=1.345

편집 : 위에 표시된 QQ 플롯에서 매우 긴 꼬리 오차 분포가있는 것처럼 보입니다. 이것은 Huber M-estimator가 설계된 상황의 종류이며,이 상황에서 상당히 다른 추정치를 제공 할 수 있습니다.

오차가 정규 분포를 따르는 경우 정규 분포 아래에서 대부분의 Huber 함수는 최소 제곱에 해당 하는 상황에 속하므로 추정값은 매우 유사 합니다. 긴 꼬리 상황에서 많은 사람들이 상황에 빠지게되는데 , 이는 OLS에서 출발하여 불일치를 설명합니다. ρ|x|<k|x|>k


나는 다른 여러 모델 (동일한 수의 관측치, 동일한 IV)을 시도했으며 계수는 rlm과 lm 사이에서 상당히 유사합니다. 이 특정 데이터 세트에는 계수의 큰 차이를 생성하는 것이 있어야합니다.
Robert Kubrick

1
를 선택하기위한 표준화 된 방법은 없습니다. 그것들은 튜닝 매개 변수이며 일반적으로 임시 방식으로 선택됩니다. 주요 논문 (1964 년 허버)에서 그는 1.0과 2.0 사이의 어느 곳에서나 적절한 결과를 얻을 수 있으며 선택이 크게 중요하지 않다고 지적했다. 이 백서 ( education.wayne.edu/jmasm/sawilowsky_lre.pdf )에서 저자는 '위치 상대 효율성'이라는 개념을 사용하여 색인을 생성하도록 선택했습니다. 어쨌든, 최소 제곱 추정값을 데이터의 최대 가능성 추정값으로 처리하지 않는 것이 좋습니다. 오류는 매우 길다. k
매크로

1
어느 정도까지 유효성을 검사하기 위해 할 수있는 한 가지는 함수 에서 를 시도 하고 잔차 표준 오차 및 모수 추정치가 어떻게 변경되는지 확인하는 것입니다. 로 커질수록의 몇 가지 방법이 있어야한다 추정. 또한이 데이터 세트를 사용하여 MAD (Start of Spread) 추정값이 매우 작을 수 있습니다 . 이 경우, 산포의 추정치가 너무 작기 때문에 모든 규모의 모든 것을 버리고 있으며, k를 변경하면 차이가 없습니다. k=1.5,2,2.5,3,3.5,4psi.huber케이lmrlm
jbowman

1
추가 정보 @jbowman에 대한 것입니다. 유용한 의견입니다. 마지막 의견에 관해서는, 그 큰 관측은 정확하게 던져지지는 않습니다. 그들의 영향은 (필요한 것처럼 보일 것입니다) 맞습니까?
매크로

1
@RobertKubrick, Huber (1964)는이 추정 방정식이 정상 및 긴 꼬리 오류가 혼합 된 오류에 직면 한 정확한 통계적 추론을 제공하므로 이러한 유형의 비정규 성을 처리 할 수 ​​있다는 점에서 견실함을 보여 주었다 . 다시 : 마지막 의견-사실이 아닙니다. 우리는 스케일을 조정 합니다. 적합하지 않은 모델은 정상적인 오류를 가질 수 있습니다. 스케일을 조정하면 이러한 오류는 더 이상 "큰"것이 아닙니다. 이것은 어떤 의미에서, 정규화와 일치하지 않는 잔차를 가진 다운 웨이트 관측 값은 비록 내가 말했듯이, 이것이 방법이 도출 된 방법은 아닙니다. σσ
매크로
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.