회귀 모형을 개선하기 위해 평균 절대 오차의 상자 그림을 기반으로 특이 치를 제거하는 것이 부정입니까?


15

아래 상자 그림에서 볼 수 있듯이 네 가지 방법으로 테스트 한 예측 모델이 있습니다. 모델이 예측하는 속성의 범위는 0-8입니다.

당신은이 있음을 알 수 있습니다 하나의 상한선 이상치세 하한 이상치 모든 방법으로 지적했다. 데이터에서 이러한 인스턴스를 제거하는 것이 적절한 지 궁금합니다. 아니면 예측 모델을 개선하기 위해 일종의 부정 행위입니까?

여기에 이미지 설명을 입력하십시오


1
(1) 세 가지가 아닌 네 가지 방법에 대한 결과를 봅니다. (2) 예측 능력의 증거를 제거하는 것이 어떻게 방법을 개선 할 수 있습니까?
whuber

@ whuber (1)가 고정되었습니다. (2)의 경우, 매우 부정확하게 예측 된 인스턴스를 제거하면 전체적으로 더 나은 예측 성능으로 이어지지 않을 것입니다 (이는 "모델 개선"으로 의미 한 것 입니까?
renakre

7
어떤 이유로 든 (4 개의 가장 잘 맞는 점) 관측 값을 제거하는 것은 모델 선택입니다. 당신의 예측 성능을 평가해야 두 번째 모델 선택을 너무 . 핵심 포인트는 전체 예측 방법의 성능을 평가하는 데 사용되는 최종 테스트 세트의 무결성을 유지하는 것입니다. 잘못 예측 된 데이터를 삭제 한 후 모델 (올가미 등)을 개조 할 계획인지는 확실하지 않습니다.
user603

2
부수적으로 언젠가는 큰 가치가 숨겨져 있으며주의 깊게 살펴볼 가치가 있다고 덧붙입니다.
Dr. Atariah

@DrorAtariah 감사합니다 Dror, 동의합니다. 극단적 인 경우 가 중요합니다.
renakre

답변:


22

회귀 모델 을 개선 하기 위해 관측치 제거하는 것은 거의 항상 부정 행위 입니다. 이것이 실제로 이상치라고 생각할 때만 관측치를 삭제해야합니다.

예를 들어, 스마트 시계에 연결된 심박수 모니터의 시계열이 있습니다. 이 시리즈를 살펴보면 300bps와 같은 판독 값으로 잘못된 관측이 있음을 쉽게 알 수 있습니다. 모델을 개선하고 싶기 때문에 (이것이 무엇이든) 제거해야합니다. 그들은 당신의 심장 박동과 관련이없는 독서의 오류입니다.

그래도주의해야 할 것은 데이터와 오류의 상관 관계입니다. 이 예에서는 점프와 같은 운동 중에 심박수 모니터가 변위 될 때 오류가 있다고 주장 할 수 있습니다. 이러한 오류는 하트 율과 관련이 있습니다. 그들이하지 않기 때문에이 경우,주의, 이러한 이상치 및 오류 제거에주의해야 무작위로

특이 치를 제거하지 않는 경우에 대한 예제를 알려 드리겠습니다 . 스프링에서 무게의 움직임을 측정한다고 가정 해 봅시다. 무게가 무게 의 강도비해 작 으면 Hooke의 법칙 이 매우 잘 작동 한다는 것을 알 수 있습니다 여기서 F 는 힘, k- 장력 계수, Δ x 는 무게의 위치입니다 .

에프=케이Δ엑스,
에프케이Δ엑스

무게를 너무 많이 넣거나 무게를 너무 많이 바꾸면 편차가 나타나기 시작합니다. 변위가 충분히 크면 운동이 선형 모델에서 벗어난 것처럼 보입니다. 따라서 선형 모델을 개선하기 위해 특이 치를 제거하려는 유혹을받을 수 있습니다 . Hooke의 법칙이 거의 맞기 때문에 모델이 제대로 작동하지 않기 때문에 이것은 좋은 생각이 아닙니다.Δ엑스

업데이트 귀하의 경우 해당 데이터 포인트를 가져 와서 자세히 살펴 보는 것이 좋습니다. 실험실 장비 고장 일 수 있습니까? 외부 간섭? 샘플 결함? 기타

다음으로 이러한 특이 치의 존재가 내가 제시 한 예에서 측정 한 것과 상관 될 수 있는지 확인하십시오. 상관 관계가 있으면 간단한 방법이 없습니다. 상관 관계가 없으면 특이 치를 제거 할 수 있습니다


2
It is always a cheating to remove outliers to improve a regression model. 스플라인 회귀 분석을 부정 행위 로 간주 합니까? FWIW, 그것은 않습니다 [로컬] 회귀 모델 ~ 개선하기 위해 아래로 무게 관찰
user603

1
"회귀 모델을 개선하기 위해 특이 치를 제거하는 것은 항상 부정 행위입니다." 회귀 진단을 수행하는 많은 도구가 있으며 그 목표는 이상 값을 감지하고 "제거"하고 모델을 다시 맞추는 것입니다.
Haitao Du

6
@ hxd1011 Grubbs와 같은 도구는 특이 치를 자동으로 제거하지 않습니다. 그들은 이상 치가있을 수 있음을 나타내며, 이상치인지를 결정합니다. 특이 치를 자동으로 제거하여 적합 진단을 향상시키는 것은 매우 위험한 방법입니다. 사례별로 분석해야합니다.
Aksakal

2
알았어 내 원래 언어가 너무 엄격했습니다. 첫 문장을 편집했습니다. 감사 의견을 덧글로
Aksakal

1
@renakre, 이것들이 이상치라고 생각하지 않으면 관측치를 제거하지 마십시오. 그러나 고려해야 할 것은 제곱 오차 이외의 예측 양호도를 측정하는 것입니다. 예를 들어, 이러한 인스턴스가 그다지 중요하지 않은 경우에는 제곱에 가중치를 부여 할 필요가없고 대신 절대 편차 등을 사용해야합니다. 측정 값은 각 예측 오류의 달러 손실과 같은 예측 오류의 중요성을 반영해야합니다. . 또한, 이것이 카운트라는 사실이 자동으로 계측기 오류가 없다는 것을 의미하지는 않으며, 클릭 수를 계산하는 웹 페이지 플러그인이 실패 할 수 있습니다.
Aksakal

4

나는 원래 이것을 다른 답변에 대한 의견으로 게시하고 싶었지만 너무 길어서 적합하지 않았습니다.

모델을 볼 때 반드시 하나의 큰 그룹과 일부 특이 치를 포함하지는 않습니다. 제 생각에는 중간 크기의 그룹 (1 ~ -1) 1 개와 6 개의 작은 그룹이 포함되어 있으며 각각 2 개의 정수 사이에 있습니다. 정수에 도달 할 때 해당 주파수에서 관측치가 적다는 것을 분명히 알 수 있습니다. 유일하게 특별한 점은 0이며, 실제로 관측에서 눈에 띄는 하락이 없습니다.

내 의견으로는,이 배포판이 왜 다음과 같이 확산되는지를 다루는 것이 좋습니다.

  • 분포에 이러한 관측치 수가 정수로 떨어지는 이유는 무엇입니까?
  • 이 관측치 수가 0에서 발생하지 않는 이유는 무엇입니까?
  • 이 특이 치에 대해 특이한 점은 무엇입니까?

별개의 인간 행동을 측정 할 때는 항상 특이 치가 있습니다. 왜 이러한 특이 치가 모델에 맞지 않는지, 그리고 모델의 향후 반복을 개선하는 데 어떻게 사용할 수 있는지 보는 것이 흥미로울 수 있습니다.


+1. 정수의 차이가 항상 정수에 맞지 않는 것처럼 보이기 때문에 존재하지 않는 패턴을 보는 것이 더 많을 수도 있지만, 데이터 수집, 코딩 또는 불연속 화로 인해 빛을 차단할 수 있습니다. 데이터 전체에. 0에서 겹치는 부분이 많거나 지터가있는 점으로 인해 틈이 생길 수도 있습니다. 데이터가 우리의 생각인지 확인하기 위해 원점으로 되돌아 갈 가치가 있습니다.
Wayne

2

"정상 패턴"에 대해서만 특이 치를 제거하고 모델을 빌드하는 데 장단점이 있습니다.

  • 장점 : 모델 성능이 더 좋습니다. 직감은 "일반 패턴"과 "외부 패턴"을 모두 캡처하기 위해 ONE 모델을 사용하기가 매우 어렵다는 것입니다. 따라서 특이 치를 제거하고 "정상 패턴"에 대한 모델 만 작성합니다.

  • 단점 : 특이 치를 예측할 수 없습니다. 다시 말해, 모델을 프로덕션에 배치한다고 가정하면 모델에서 일부 누락 된 예측이있을 것입니다

특이 치를 제거하고 모델을 작성하고 가능한 경우 특이 치에 대해서만 별도의 모델을 작성하려고합니다.

"속임수"라는 단어의 경우, 종이를 쓰고 있고 특이 값을 정의하고 제거하는 방법을 명시 적으로 나열하면 개선 된 성능에 대한 언급은 깨끗한 데이터에만 적용됩니다. 부정 행위가 아닙니다.


3
다운 보트가 마음에 들지 않지만 누군가 이유를 말해 줄 수 있습니까?
Haitao Du

나는 upvoted :) 당신은 또한 특이 치를 제거하고 예측 모델을 더 테스트하기 위해 데이터를 리샘플링하는 것이 좋은 생각이라고 생각합니까?
renakre

1
@renakre 나는 당신이 생산에서 무엇을 해야할지 생각할 것을 제안 할 것입니다. 특이 치가 1 %에 불과하고 생산량에서 생산량을 생산하지 않는 것이 좋다고 가정 해 봅시다. 그런 다음 제거하십시오. 특이 치가 30 % 인 경우 생산에서 예측을 건너 뛰어도 괜찮습니다. 그런 다음 별도의 모델을 사용하십시오.
Haitao Du

우리는 대부분 결과 변수를 예측할 수 있는지 확인하기 위해 테스트하고 있습니다. 합니까는 if it is fine to produce no output in production같은 일을 의미? 따라서 실제 변수로 모델을 사용하여 결과 변수를 테스트하고 응용 프로그램에서 예측 점수를 사용하는 경우 특이 치를 제거하는 것은 좋지 않습니다 (특히 언급 한 것보다 많은 경우)? 이것이 당신이 의미 한 것입니까?
renakre

1
@renakre 당신은 죽었습니다! 우리가 예측 한 한계가 psi 가중치뿐 아니라 재 샘플링 된 오차를 특이 치로 채우는 AITOBOX를 사용하여 최근에 한 일입니다. 이는 ARIMA 모형뿐만 아니라 예측 변수의 불확실성이 유사한 방식으로 통합 된 인과 모형에도 적용됩니다.
IrishStat

2

확실한 질적 이유가있을 때 이상 치를 제거하는 것이 합리적이라고 생각합니다. 이것은 모델에없는 다른 변수가 특이 치 관측에 영향을 미친다는 정보를 가지고 있음을 의미합니다. 그런 다음 특이 치를 제거하거나 변수를 추가 할 수 있습니다.

데이터 세트 내에서 특이 치가 관측 될 때 특이 치가 존재하는 이유를 확인하기 위해 연구함으로써 내 데이터 및 고려할 수있는 다른 모델에 대해 자세히 알아 봅니다.


1
stats.SE에 오신 것을 환영합니다! 둘러 보기를 잠시보십시오 . 질문을보다 완전하게 답하기 위해 답을 확장하면 (예 : 상자 그림에 따른 특이 치 결정,이 방법이 예측 모델에 미치는 영향 등) 도움이 될 것입니다.
Tavrock

2

나는 그들이 "outliers"라고 확신하지도 않습니다. 정규 확률도를보고 싶을 수도 있습니다. 모형 적합으로 인한 데이터 또는 잔차입니까?


그것들은 예측값과 실제 값의 차이입니다.
renakre
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.