Greg의 제안이 가장 먼저 시도해야 할 것은 분명합니다. 상황.
그러나 제안 된 모델은 예를 들어 둥근 데이터를 관찰 할 때 발생할 수 있습니다 :
iid 정상 오류 .
와이나는= ⌊ a엑스나는+ b +ϵ나는⌋ ,
ϵ나는
나는 이것이 할 수있는 일을 살펴 보는 것이 재미 있다고 생각합니다. 표준 정규 변수의 cdf를 표시 합니다. 만약 다음
익숙한 컴퓨터 표기법을 사용합니다.에프ϵ∼N(0,σ2)
P(⌊ax+b+ϵ⌋=k)=F(k−b+1−axσ)−F(k−b−axσ)=pnorm(k+1−ax−b,sd=σ)−pnorm(k−ax−b,sd=σ),
데이터 포인트 관찰했습니다 . 로그 우도는
이것은 최소 제곱과 동일하지 않습니다. 수치 방법으로이를 최대화하려고 시도 할 수 있습니다. 다음은 R의 그림입니다.(xi,yi)
ℓ(a,b,σ)=∑ilog(F(yi−b+1−axiσ)−F(yi−b−axiσ)).
log_lik <- function(a,b,s,x,y)
sum(log(pnorm(y+1-a*x-b, sd=s) - pnorm(y-a*x-b, sd=s)));
x <- 0:20
y <- floor(x+3+rnorm(length(x), sd=3))
plot(x,y, pch=19)
optim(c(1,1,1), function(p) -log_lik(p[1], p[2], p[3], x, y)) -> r
abline(r$par[2], r$par[1], lty=2, col="red")
t <- seq(0,20,by=0.01)
lines(t, floor( r$par[1]*t+r$par[2]), col="green")
lm(y~x) -> r1
abline(r1, lty=2, col="blue");
빨간색과 파란색에서 선 는이 가능성의 수치 최대화와 각각 최소 제곱으로 나타납니다. 초록색 계단은 최대 가능성에서 찾은 대해 입니다 . 이것은 최소 제곱을 사용하고 를 0.5 로 변환하여 대략 같은 결과를 얻을 수 있음을 나타냅니다. 또는 최소 제곱은 모델에 잘 맞습니다
여기서 는 가장 가까운 정수입니다. 둥근 데이터가 너무 자주 만나서 이것이 알려지고 광범위하게 연구되었다고 확신합니다 ...ax+b⌊ax+b⌋a,bb
Yi=[axi+b+ϵi],
[x]=⌊x+0.5⌋