보통 최소 제곱 추정은 비정규 오차에 직면해도 여전히 합리적인 추정값입니다. 특히, Gauss-Markov Theorem 은 일반적인 최소 제곱 추정값이 오류가있는 한 회귀 계수의 최고 선형 비 편향 추정량 (BLUE) ( 평균 제곱 오차 를 최소화하는 데 최적 인 '최상의' )이라고 설명합니다.
(1) 평균이 0이다
(2) 상관이 없다
(3) 분산이 일정하다
여기에는 정규 조건이 없습니다 (또는 오류가 IID 인 조건 ).
신뢰 구간 및 / 또는 값을 얻으려고 할 때 정규성 조건이 적용됩니다 . (우리가 논의 된 바와 같이, 예를 들면 - @MichaelChernick 당신은 오랫동안 정상에서 출발이 방법으로 처리 할 수있는만큼 오류가 아닌 일반적인 경우 강력한 추론을 사용할 수 있습니다 (BTW 일을) 언급으로 이 스레드) 후버 -estimator는 실제 오차 분포가 정규 분포와 긴 꼬리 분포 (예 : 모양) 사이의 혼합이지만 다른 정규 분포를 벗어나는 데 도움이되지 않을 때 강력한 추론을 제공 할 수 있습니다. Michael이 암시하는 한 가지 흥미로운 가능성 은 OLS 추정치에 대한 신뢰 구간을 얻기 위해 부트 스트랩 하고 이것이 Huber 기반 추론과 비교되는 방식을 보는 것입니다.MpM
편집 : 나는 종종 비제 한 오류를 처리하기 위해 중앙 제한 정리에 의존 할 수 있다고 들었습니다. 항상 사실이 아닙니다 (정리가 실패하는 반례에 대해서만 말하는 것이 아닙니다). 에서 실제 데이터 예를 들어 당신은 반드시 제공하기 위해 중심 극한 정리에 의존 할 수 없다, 당신은 오래 오류를 꼬리 한 상황에서 - 영업가 참조, 우리는 큰 샘플 크기를 가지고 있지만 긴 꼬리 오류 분포의 증거를 볼 수 있습니다 현실적인 유한 샘플 크기에 대한 대략적인 편향 추론. 예를 들어, 오차 가 자유 도로 분포를 따르는 경우 ( 더 명확하지는 않음)2.01t2.01 OP의 데이터에서 볼 수있는 오차보다 긴 꼬리), 계수 추정값은 무 정규 정규 분포이지만 다른 짧은 꼬리 분포보다 "차지"하는 데 훨씬 오래 걸립니다.
이하, I는에 조 시뮬레이션 보여 R
그 때 여기서 의 샘플링 분포 표본 크기가 경우에도 은 여전히 매우 긴 꼬리입니다 .ε I ~ t 2.01 β 1 N = 4000yi=1+2xi+εiεi∼t2.01β^1n=4000
set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
x = rnorm(4000)
y = 1 + 2*x + rt(4000,2.01)
g = lm(y~x)
B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])