특이 치에 강력한 고속 선형 회귀


50

나는 특이 치에 대한 선형 데이터를 다루고 있는데, 그중 일부는 추정 회귀선에서 5 표준 편차 이상입니다. 이러한 점의 영향을 줄이는 선형 회귀 기술을 찾고 있습니다.

지금까지 내가 한 일은 모든 데이터로 회귀선을 추정 한 다음 매우 큰 제곱 잔차 (예 : 상위 10 %)가있는 데이터 포인트를 버리고 해당 포인트없이 회귀를 반복하는 것입니다.

문헌에는 최소한의 정사각형, Quantile 회귀 분석, m- 추정기 등의 가능한 접근 방법이 많이 있습니다. 어떤 방법을 시도해야할지 모르겠 기 때문에 제안을 찾고 있습니다. 나에게 중요한 것은 선택한 회귀 분석이 최적화 루틴의 각 단계에서 계산되기 때문에 선택된 방법이 빠르다는 것입니다. 고마워요!


2
언급하지 않은 방법 은 자유도를 알 수없는 Student- 오류를 사용하는 것입니다 . 그러나 이것은 필요한만큼 빠르지 않을 수 있습니다. t

@ Procrastinator : (이것이 작동하지 않는 이상치의 구성을 상상하기 쉽습니다).
user603

@ user603 그것은 모든 방법에 해당되며 Panacea는 없습니다.). 나는 단순히 다른 방법을 지적하고있었습니다. 답을 +1하십시오.

3
@Procrastinator : 모든 방법이 어느 정도의 오염으로 인해 실패 할 것에 동의합니다 . 이러한 맥락에서 '실패'는 정량적이고 경험적으로 정의 할 수 있습니다. 그러나 아이디어는 더 높은 오염 률에서만 실패 할 수있는 방법을 여전히 선호하는 것입니다.
user603

4
이는 최적화 루틴 중에 반복적으로 수행되므로 회귀 분석의 데이터가 (최종적으로) 느리게 변경 될 수 있습니다. 이는 상황에 맞는 알고리즘을 제안합니다. 어떤 형태의 강력한 회귀로 시작하지만 최적화 중에 작은 단계를 수행 할 때 다음 단계에서 이전 이상 치가 이상치로 유지된다고 가정하면됩니다. 데이터에 OLS를 사용한 다음 추정 이상 치가 여전히 외부에 있는지 확인하십시오. 그렇지 않은 경우 강력한 절차로 다시 시작하지만, 자주 발생하는 경우 많은 계산을 저장했을 것입니다.
whuber

답변:


55

데이터에 단일 특이 치가 포함되어 있으면 반복하지 않고 제안한 방법을 사용하여 안정적으로 찾을 수 있습니다. 이에 대한 공식적인 접근 방식은

쿡, 데니스 (1979). 선형 회귀 분석의 영향력있는 관찰 . 미국 통계 협회 저널 (American Statistical Association) 74 (365) : 169–174.

수년 동안 하나 이상의 이상 값을 찾는 데있어 주요한 방법은 소위 추정법 접근 방식이었습니다. 이것은 Huber의 회귀 추정량, Koenker의 L1 회귀 분석 및 Procastinator가 귀하의 질문에 대한 제안으로 제안한 접근 방식 을 포함하는 다소 광범위한 추정기입니다 . 볼록 추정기와 기능 들은 일반 회귀 추정과 동일한 수치가 복잡도에 대해 이점을 갖는다. 가장 큰 단점은 다음과 같은 경우에만 특이 치를 찾을 수 있다는 것입니다.MMMρ

  • 샘플의 오염 률이 보다 작습니다. 여기서 는 설계 변수의 수입니다.11+pp
  • 또는 특이 치가 설계 공간에 포함되지 않은 경우 (Ellis and Morgenthaler (1992)).

( ) 패키지 에서 회귀 추정치 ( )을 구현 한 것을 찾을 수 있습니다 . Ml1robustbasequantregR

데이터가 더 포함되어있는 경우 설계 공간에 잠재적으로 외곽 이상치, 다음, 그들은 조합 문제 (AN에 동등하게 솔루션을 해결하는 금액 찾는 재와 견적 감소 / 비 볼록 기능). np+1Mρ

지난 20 년 동안 (특히 10 년 동안)이 조합 문제를 대략적으로 해결하기 위해 빠르고 신뢰할 수있는 이상치 탐지 알고리즘이 많이 설계되었습니다. 이들은 현재 가장 널리 사용되는 통계 패키지 (R, Matlab, SAS, STATA 등)에서 널리 구현됩니다.

그럼에도 불구하고, 이러한 접근법으로 특이 치를 찾는 수의 복잡성은 일반적으로 차수 입니다. 대부분의 알고리즘은 실제로 10 대 중반 의 값에 사용될 수 있습니다 . 일반적으로 이러한 알고리즘은 (관측 수) 에서 선형 이므로 관측 수는 문제가되지 않습니다. 큰 장점은 이러한 알고리즘의 대부분이 창피하게 병렬이라는 것입니다. 보다 최근에는,보다 높은 차원의 데이터를 위해 특별히 설계된 많은 접근법이 제안되었다.O(2p)pn

귀하의 질문에 를 지정하지 않았다면 사례에 대한 참조를 나열 할 것 입니다. 다음은이 일련의 검토 기사에서이를 자세히 설명하는 논문입니다.pp<20

Rousseeuw, PJ 및 van Zomeren BC (1990). 다변량 특이 치 및 레버리지 점 마스킹 해제 . 미국 통계 협회 , Vol. 85, No. 411, 633-639 쪽.

Rousseeuw, PJ 및 Van Driessen, K. (2006). 대규모 데이터 세트에 대한 LTS 회귀 계산 . 데이터 마이닝 및 지식 검색 아카이브 제 12 권 1 호, 29-45 페이지.

휴 버트, M., Rousseeuw, PJ 및 Van Aelst, S. (2008). 고장력이 강한 다변량 방법 . 통계 과학 , Vol. 23, No. 1, 92–119

Ellis SP 및 Morgenthaler S. (1992). L1 회귀 분석의 활용 및 분석. 미국 통계 협회 , Vol. 87, No. 417, 143-148 쪽

특이점 식별 문제에 대한 최근 참조서는 다음과 같습니다.

Maronna RA, Martin RD 및 Yohai VJ (2006). 강력한 통계 : 이론 및 방법 . 와일리, 뉴욕

이러한 (및 이들의 많은 다른 변형) 메소드는 패키지 에서 (다른 것들 중에서) 구현 됩니다.robustbase R


4
지금은 좋은 답변입니다!
Peter Flom-Monica Monica 복원

많은 user603 감사합니다! 내 문제에서p<10p

2
p<10M

1
"큰 장점은 이러한 알고리즘의 대부분이 있다는 것입니다 곤란하게 평행." 나는 문구를 좋아한다. ;)
Mateen Ulhaq

1
@Mateen, 글쎄, 그것은 결국 예술의 용어입니다 . :)
JM은 통계학자가 아닙니다.

19

단순한 회귀 (단일 x)의 경우, Theil-Sen 라인에 대해 y- 이상치 및 영향력있는 점에 대한 견고성과 일반적으로 경사에 대한 LS에 비해 우수한 효율 (정상)에 대해 언급 할 것이 있습니다. 경사면의 고 장점은 거의 30 %입니다. 절편 (사람들이 사용한 다양한 절편이 있음)이 더 낮은 고장을 갖지 않는 한, 전체 절차는 상당히 많은 양의 오염에 잘 대처합니다.

중간 속도 경사는 중앙값을 사용 하더라도 것처럼 보이지만 속도는 더 나쁘게 들릴 수 있습니다. 그러나 내 기억은 더 빠르게 수행 할 수 있다는 것입니다. 속도가 실제로 문제라면 ( , 나는 믿는다)(n2)O(n2)O(n)O(nlogn)

편집 : user603은 L1 회귀에 비해 Theil 회귀의 이점을 요청했습니다. 대답은 내가 언급 한 또 다른 것입니다.

Theil_vs_L1

빨간색 선은 패키지 의 함수 에서 맞습니다 . 그린은 테일 슬로프와 잘 어울립니다. 53 대신 533을 입력하는 것과 같이 x 값에 단일 오타 만 있으면 이런 일이 발생할 수 있습니다. 따라서 맞춤은 x 공간의 단일 오타에 견고하지 않습니다.L1rqquantregL1


실제로 시간에 계산할 수 있습니다 . TS 추정기가 회귀에 비해 어떤 이점 (단일 x 경우)에 대해 시겠습니까? nlognl1
user603

1
@ user603 편집 내용을 참조하십시오.
Glen_b

(+1) 편집 해 주셔서 감사합니다. 이 기능을 지적하는 것이 중요합니다.
user603

1
그리고 R 패키지 로버 스트베이스의 lmrob () 또는 MASS 패키지의 'base R'} rlm (*, ... method = "MM") 외에는 아무것도 설치할 필요가없는 것과 같은 MM 추정치에 비해 어떤 이점이 있습니까? 이들은 완전한 고 장점 (~ 50 %)을 가지고 있으며 아마도 정상에서 훨씬 더 효율적일 것입니다.
Martin Mächler

1
@ MartinMächler 당신이 내가 거기에서하지 않은 주장에 반대하는 것처럼 보입니다. 다른 고 강력 견고성 추정기, 특히 OP 수준의 누군가가 이해하기 쉬운 추정치를 비교 한 답변을 작성하고 싶다면 읽어 보시기 바랍니다.
Glen_b

12

RANSAC (Wikipedia)를 보셨습니까 ?

이는 데이터의 일부만 실제로 메커니즘에 속한다는 가정을 기반으로하기 때문에 특이 치와 노이즈 가 많은 경우에도 합리적인 선형 모델을 계산하는 데 좋습니다 .


참이지만 단순한 재 - 가중하는 단계를 추가하는 것은 동일하다 견고한 추정기 (LTS) 산출 하므로 훨씬 더 안정적이고 효율적인 통계적. 왜 안돼?
user603

1

나는 오류 회귀에 가장 좋은 것을 알았습니다 . 또한 반복적으로 사용할 수 있으며 샘플과 무게를 달아서 솔루션과 크게 일치하지 않습니다. 기본 아이디어는 다음과 같은 오류로 모델을 보강하는 것입니다. 여기서 는 알 수없는 오류 벡터입니다. 이제 에서 회귀를 수행합니다 . 흥미롭게도 당신은 당신이 사전에 측정의 확실성을 추정에 가중치로이를 넣을 수 있습니다 때, 물론이 내용은 "올가미 융합"를 사용할 수 과 새로운 slighty를 다른 작업을 해결하기 위해 l1

y=Ax+e
e
yAxe22+λe1
W=diag(wi)
yAxe22+λWe1

자세한 정보는 여기에서 찾을 수 있습니다 : http://statweb.stanford.edu/~candes/papers/GrossErrorsSmallErrors.pdf


Glen_b 예제에서 시도 했습니까 (그가 배치 한 위치 옆에 두 번째 특이 치를 추가하면) 게시 했습니까?
user603

@ user603 아니요, 카메라 이미지에서 3D 모델링을위한보다 실용적인 경우에 이것을 적용했습니다. 거기에 많은 도움이되었습니다. 그러나 배운 교훈은 다음과 같습니다. 특이 치를 제거 할 여러 가능성이있는 경우이를 사용하십시오.
mojovski
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.