이상치 탐지에 회귀를 사용할 수 있습니다. 특이 치를 제거하여 회귀 모형을 개선 할 수있는 방법이 있음을 이해합니다. 그러나 여기서의 기본 목표는 회귀 모델에 적합하지 않고 회귀를 사용하여 liers를 찾는 것입니다.
이상치 탐지에 회귀를 사용할 수 있습니다. 특이 치를 제거하여 회귀 모형을 개선 할 수있는 방법이 있음을 이해합니다. 그러나 여기서의 기본 목표는 회귀 모델에 적합하지 않고 회귀를 사용하여 liers를 찾는 것입니다.
답변:
특이 치를 찾기 위해 회귀를 사용하는 가장 좋은 방법은 강력한 회귀를 사용하는 것입니다.
특이 회귀 분석은 특이 치에 의해 두 가지 방식으로 영향을받을 수 있습니다.
첫째, 근처의 x 값에서 y 방향의 극단적 인 특이 치는 특이 치가 평균에 영향을 미치는 것과 같은 방식으로 해당 영역의 적합에 영향을 줄 수 있습니다.
둘째, x- 공간에서의 '외부'관측은 영향력있는 관측 입니다. 그것은 선의 적합을 끌어 당길 수 있습니다. 그것이 충분히 멀다면 라인은 영향력있는 지점을 통과 할 것입니다 :
왼쪽 그림에는 상당히 영향력있는 점이 있으며 대량의 데이터에서 선을 상당히 끌어냅니다. 오른쪽 줄거리에서, 그것은 더 멀리 이동되었으며 이제 선이 점을 통과합니다. x 값이 그 극단 일 때, 그 점을 위아래로 움직일 때 선은 다른 점의 평균과 하나의 영향력있는 점을 통과하면서 그 점과 함께 움직입니다.
나머지 데이터와 완벽하게 일치하는 영향력있는 점은 그리 큰 문제는 아니지만 나머지 데이터를 통해 한 줄에서 멀어지면 데이터가 아니라 해당 줄에 맞습니다.
오른쪽 그림을 보면, 최소 제곱 회귀선 인 빨간색 선 은 극단 점을 전혀 특이 치로 표시 하지 않습니다. 잔차는 0입니다. 대신, 최소 제곱 선의 큰 잔차는 데이터의 주요 부분!
이것은 당신이 완전히 이상 치를 놓칠 수 있음 을 의미 합니다 .
더 나쁜 것은 다중 회귀 분석으로 인해 x- 공간의 특이 치가 단일 x- 변수에 대해 특이하게 보이지 않을 수 있습니다. 그러한 점이있을 가능성이 있다면 최소 제곱 회귀 분석을 사용하는 것은 매우 위험한 일입니다.
강력한 회귀
두 번째 플롯의 녹색 선과 같이 강건한 선, 특히 영향력있는 특이 값 에 강한 선을 맞추면 특이 치의 잔차가 매우 큽니다.
에서 이 경우, 당신은 이상 값을 식별 희망을 - 어떤 의미에서 - - 라인에 가까운 그렇지 않은 점을 알 수있을 것입니다.
특이 치 제거
확실한 회귀를 사용하여 특이 치를 식별하고 제거 할 수 있습니다.
그러나 일단 회귀 적합치 (outliers에 의해 크게 영향을받지 않는)가 강하면 특이 치를 제거 할 필요는 없습니다. 이미 적합한 모형이 있습니다.
이상치 탐지에 회귀를 사용할 수 있습니다.
예. 이 답변과 Glen_b의 답변이이 문제를 해결합니다.
여기서 주요 목표는 회귀 모델에 적합하지 않고 회귀를 사용하여 liers를 찾는 것입니다.
Roman Lustrik의 의견을 바탕으로 (여러 선형) 회귀를 사용하여 특이 치를 찾는 휴리스틱이 있습니다.
표본 크기가 이라고 가정하겠습니다 . 그런 다음 다음을 수행하십시오.
예 에 회귀 모형을 적합시킵니다 . 잔차 제곱 오차 적어 .r t o t a l
각 표본 i에 대해 n-1 예 (예 i 제외)에 회귀 모델을 맞추고 해당 잔차 제곱합 오차 합니다.
이제 비교 가진 각 경우 다음 후보 특이하다.r에 t O t 나는 r에 I < < R t O t 리터 I
이러한 후보 이상 점을 제쳐두고 축소 된 샘플로 전체 운동을 다시 반복 할 수 있습니다. 알고리즘에서 우리는 회귀 적합에 나쁜 영향을 미치는 데이터에서 예를 선택합니다 (이는 예를 특이 치로 표시하는 한 가지 방법입니다).