회귀를 이용한 이상치 탐지


11

이상치 탐지에 회귀를 사용할 수 있습니다. 특이 치를 제거하여 회귀 모형을 개선 할 수있는 방법이 있음을 이해합니다. 그러나 여기서의 기본 목표는 회귀 모델에 적합하지 않고 회귀를 사용하여 liers를 찾는 것입니다.


외층이없는 모델을 피팅 한 후 피팅이 향상되면 이것이 극단적 인 가치라는 증거가 있습니다. 적합도가 상대적으로 개선되지 않기 때문에 데이터가 많은 경우 문제가 될 수 있습니다.
Roman Luštrik

@ RomanLuštrik : 이것은 특이 치에 대한 매우 비판적인 정의입니다. 예를 들어, Glen_b의 답변에 사용 된 특이 치 (또는 "강력한 통계 : 이론 및 방법"과 같은 주제에 대한 교과서에 사용 된 특이 치에 대한 정의)와 일치하지 않습니다. 정의를 뒷받침 할 출처를 인용하고 싶으십니까?
user603

나는 어떤 인용도 인용 할 수 없다. 당신은 물론 맞아요, 맞는 개선은 무엇입니까? 개선은 매우 주관적인 문제 일 수 있으며 로봇 컷오프 값이 아닌 가이드로 사용해야하며 사례별로 판단해야합니다.
Roman Luštrik

반복적으로 가중 된 최소 제곱 은 데이터에서 특이 치를 찾는 데 일반적으로 사용되는 강력한 회귀 방법입니다.
whuber

답변:


13

특이 치를 찾기 위해 회귀를 사용하는 가장 좋은 방법은 강력한 회귀를 사용하는 것입니다.

특이 회귀 분석은 특이 치에 의해 두 가지 방식으로 영향을받을 수 있습니다.

첫째, 근처의 x 값에서 y 방향의 극단적 인 특이 치는 특이 치가 평균에 영향을 미치는 것과 같은 방식으로 해당 영역의 적합에 영향을 줄 수 있습니다.x¯

둘째, x- 공간에서의 '외부'관측은 영향력있는 관측 입니다. 그것은 선의 적합을 끌어 당길 수 있습니다. 그것이 충분히 멀다면 라인은 영향력있는 지점을 통과 할 것입니다 :

여기에 이미지 설명을 입력하십시오

왼쪽 그림에는 상당히 영향력있는 점이 있으며 대량의 데이터에서 선을 상당히 끌어냅니다. 오른쪽 줄거리에서, 그것은 더 멀리 이동되었으며 이제 선이 점을 통과합니다. x 값이 그 극단 일 때, 그 점을 위아래로 움직일 때 선은 다른 점의 평균과 하나의 영향력있는 점을 통과하면서 그 점과 함께 움직입니다.

나머지 데이터와 완벽하게 일치하는 영향력있는 점은 그리 큰 문제는 아니지만 나머지 데이터를 통해 한 줄에서 멀어지면 데이터가 아니라 해당 줄에 맞습니다.

오른쪽 그림을 보면, 최소 제곱 회귀선 인 빨간색 선 은 극단 점을 전혀 특이 치로 표시 하지 않습니다. 잔차는 0입니다. 대신, 최소 제곱 선의 큰 잔차는 데이터의 주요 부분!

이것은 당신이 완전히 이상 치를 놓칠 수 있음 의미 합니다 .

더 나쁜 것은 다중 회귀 분석으로 인해 x- 공간의 특이 치가 단일 x- 변수에 대해 특이하게 보이지 않을 수 있습니다. 그러한 점이있을 가능성이 있다면 최소 제곱 회귀 분석을 사용하는 것은 매우 위험한 일입니다.

강력한 회귀

두 번째 플롯의 녹색 선과 같이 강건한 선, 특히 영향력있는 특이 값 에 강한 선을 맞추면 특이 치의 잔차가 매우 큽니다.

에서 경우, 당신은 이상 값을 식별 희망을 - 어떤 의미에서 - - 라인에 가까운 그렇지 않은 점을 알 수있을 것입니다.


특이 치 제거

확실한 회귀를 사용하여 특이 치를 식별하고 제거 할 수 있습니다.

그러나 일단 회귀 적합치 (outliers에 의해 크게 영향을받지 않는)가 강하면 특이 치를 제거 할 필요는 없습니다. 이미 적합한 모형이 있습니다.


1
때때로 "이상 점을 제거 할 필요는 없습니다" , 이상 점을 찾는 것이 연구의 목적입니다 (예 : 사기 식별)
user603

1
@ user603 나는 합리적으로 자주 동의하지만 제거 중 발견
Glen_b-복지국 Monica

3
(+1) 정답이지만, 강력한 회귀 방법을 언급하지 않는 것은 유감입니다. 예를 들어 초록색 선은 오른쪽 서브 플롯에 어떻게 그려졌으며 (그리고 왜 다른 알고리즘보다 그 알고리즘을 선호합니까?) 어쩌면이 링크는 유용 할 수 있습니다 : 특이 치에 대한 빠른 선형 회귀 -강력한 회귀를 논의하는 CV의 가장 좋은 스레드 일 것입니다.
amoeba

-2

이상치 탐지에 회귀를 사용할 수 있습니다.

예. 이 답변과 Glen_b의 답변이이 문제를 해결합니다.

여기서 주요 목표는 회귀 모델에 적합하지 않고 회귀를 사용하여 liers를 찾는 것입니다.

Roman Lustrik의 의견을 바탕으로 (여러 선형) 회귀를 사용하여 특이 치를 찾는 휴리스틱이 있습니다.

표본 크기가 이라고 가정하겠습니다 . 그런 다음 다음을 수행하십시오.n

  1. 예 에 회귀 모형을 적합시킵니다 . 잔차 제곱 오차 적어 .r t o t a ln rtotal

  2. 각 표본 i에 대해 n-1 예 (예 i 제외)에 회귀 모델을 맞추고 해당 잔차 제곱합 오차 합니다.ri

  3. 이제 비교 가진 각 경우 다음 후보 특이하다.r에 t O t 나는 r에 I < < R t O t 리터 Irirtotiri<<rtotali

이러한 후보 이상 점을 제쳐두고 축소 된 샘플로 전체 운동을 다시 반복 할 수 있습니다. 알고리즘에서 우리는 회귀 적합에 나쁜 영향을 미치는 데이터에서 예를 선택합니다 (이는 예를 특이 치로 표시하는 한 가지 방법입니다).


1
여기 에 표시된 데이터 세트에서이 전략을 사용해 보셨습니까 ? 더 근본적으로, 전략은 볼록 손실 함수를 최소화하는 일련의 피팅 결과에서 특이 치를 찾을 수 있다고 주장합니다. 이는 이상 치가 하나 이상일 때 알려진 오류입니다 (이 링크는 관련 문제에 대해 이것을 보여줍니다) 다변량 특이 치를 찾아야하지만 결과는 회귀에도 적용됩니다.
user603

답변을 삭제 해 드리겠습니다. 그러나 먼저, 나는 당신이주는 심판을 이해하지 못합니다. 왜 그들이 왜 내 대답을 틀리게하는지 잘 모르겠습니다. '전략'이 첫 번째 심판은 어디에 있습니까? 거기에 특정 답변을 가리킬 수 있습니까? 두 번째 심판의 어느 페이지와 라인이 여기에 관련이 있으며 '오류'를 논의합니까?
Theja

1
죄송합니다. 지금 만 다시 올 수 있습니다. 의견 섹션은 예제를 제공하기에 약간 짧으며 '답변'섹션은 OP의 질문이 아니므로 사용하지 않습니다. 아직도, 내가 연결된 데이터에 대해 방법론을 시도해 보셨습니까?
user603
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.