답변:
우리는 OLS에 의해 모델 x t = ρ x t − 1 + u t를 추정합니다 .
크기가 T 인 표본의 경우 추정량은
동일한 이름의 단위 루트 테스트를 수행하는 데 사용되는 임계 값의 기반이기 때문에 이것을 "Dickey-Fuller"분포라고도합니다.
샘플링 분포의 형태에 대한 직관 을 제공하려는 시도를 다시 생각하지 않습니다 . 우리는 랜덤 변수의 샘플링 분포를보고 있습니다
독립적 인 제품 법선을 합하면 거의 0에 가까운 대칭 분포를 얻습니다. 예를 들면 다음과 같습니다.
그러나 우리의 경우와 같이 비 독립 제품 법선을 합하면
오른쪽으로 치우 치지 만 음수 값에 더 많은 확률 질량이 할당됩니다. 그리고 표본 크기를 늘리고 더 많은 상관 요소를 합에 추가하면 질량이 왼쪽으로 훨씬 더 밀려납니다.
비 독립 감마의 합의 역수는 양의 스큐를 갖는 음이 아닌 랜덤 변수입니다.
이것은 실제로 답변이 아니지만 의견이 너무 길기 때문에 어쨌든 게시합니다.
100의 표본 크기 ( "R"사용)에 대해 백 개 중 1보다 2 배 큰 계수를 얻을 수있었습니다.
N=100 # number of trials
T=100 # length of time series
coef=c()
for(i in 1:N){
set.seed(i)
x=rnorm(T) # generate T realizations of a standard normal variable
y=cumsum(x) # cumulative sum of x produces a random walk y
lm1=lm(y[-1]~y[-T]) # regress y on its own first lag, with intercept
coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1
실현 84 및 95의 계수는 1보다 높 으므로 항상 1보다 낮지 는 않습니다 . 그러나 경향은 분명히 하향 편향 추정치를 갖는 것입니다. 질문이 남아 왜 ?
편집 : 위의 회귀에는 모형에 속하지 않은 절편 항이 포함되었습니다. 절편이 제거되면 1 (10000 중에서 3158) 이상으로 더 많은 추정값을 얻지 만 여전히 모든 경우의 50 % 미만입니다.
N=10000 # number of trials
T=100 # length of time series
coef=c()
for(i in 1:N){
set.seed(i)
x=rnorm(T) # generate T realizations of a standard normal variable
y=cumsum(x) # cumulative sum of x produces a random walk y
lm1=lm(y[-1]~-1+y[-T]) # regress y on its own first lag, without intercept
coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1