아무도 명백한 해결책을 제안하지 않은 것에 놀랐습니다.
#generate completely separated data
library(robustbase)
set.seed(123)
x<-rnorm(200)
x[1:40]<-x[1:40]+10
x[41:80]<-x[41:80]-10
Rob<-ltsReg(x~1,nsamp="best")
#all the good guys
which(Rob$raw.weights==1)
이제 설명을 위해 : 옵션과 함께 호출 될 때 ltsReg
package 의 함수robustbase
nsamp="best"
일 변량 (정확한) MCD 가중치를 산출합니다. (이것은 $raw.weights
객체에 저장된 n- 벡터 0-1 가중치 입니다.이를 식별하는 알고리즘은 MCD 추정기입니다 (1)).
간단히 말해서,이 가중치는 가장 집중된 관측치 의 부분 집합에 대해 1입니다 .h = ⌈ ( n + 2 ) / 2 ⌉
차원에서, 그 다음의 연속하는 서브 세트의 측정치 산출 모든 관측을 정렬하여 시작 나타내는 : 관측
정렬 관측 벡터의 엔트리는, 그것의 측정 값을 연산을
( 예를 들어 다음에
등등 ... )는 더 작은 측정 값을 유지합니다.h엑스( 나는 )나는t의 시간
( x( 1 ), . . . , x( h + 1 ))( x( 2 ), . . . , x( h + 2 ))
이 알고리즘은 관심 그룹의 수가 원래 표본의 대부분을 차지하고 대칭 분포를 가지고 있다고 가정합니다 (그러나 나머지 관측 의 분포에 대한 가설은 없습니다
).n - h
(1) PJ Rousseeuw (1984). 최소 제곱 회귀 분석, Journal of the American Statistical Association.