아래 상자 그림에서 볼 수 있듯이 네 가지 방법으로 테스트 한 예측 모델이 있습니다. 모델이 예측하는 속성의 범위는 0-8입니다.
당신은이 있음을 알 수 있습니다 하나의 상한선 이상치 와 세 하한 이상치 모든 방법으로 지적했다. 데이터에서 이러한 인스턴스를 제거하는 것이 적절한 지 궁금합니다. 아니면 예측 모델을 개선하기 위해 일종의 부정 행위입니까?
아래 상자 그림에서 볼 수 있듯이 네 가지 방법으로 테스트 한 예측 모델이 있습니다. 모델이 예측하는 속성의 범위는 0-8입니다.
당신은이 있음을 알 수 있습니다 하나의 상한선 이상치 와 세 하한 이상치 모든 방법으로 지적했다. 데이터에서 이러한 인스턴스를 제거하는 것이 적절한 지 궁금합니다. 아니면 예측 모델을 개선하기 위해 일종의 부정 행위입니까?
답변:
회귀 모델 을 개선 하기 위해 관측치 를 제거하는 것은 거의 항상 부정 행위 입니다. 이것이 실제로 이상치라고 생각할 때만 관측치를 삭제해야합니다.
예를 들어, 스마트 시계에 연결된 심박수 모니터의 시계열이 있습니다. 이 시리즈를 살펴보면 300bps와 같은 판독 값으로 잘못된 관측이 있음을 쉽게 알 수 있습니다. 모델을 개선하고 싶기 때문에 (이것이 무엇이든) 제거해야합니다. 그들은 당신의 심장 박동과 관련이없는 독서의 오류입니다.
그래도주의해야 할 것은 데이터와 오류의 상관 관계입니다. 이 예에서는 점프와 같은 운동 중에 심박수 모니터가 변위 될 때 오류가 있다고 주장 할 수 있습니다. 이러한 오류는 하트 율과 관련이 있습니다. 그들이하지 않기 때문에이 경우,주의, 이러한 이상치 및 오류 제거에주의해야 무작위로
특이 치를 제거하지 않는 경우에 대한 예제를 알려 드리겠습니다 . 스프링에서 무게의 움직임을 측정한다고 가정 해 봅시다. 무게가 무게 의 강도 에 비해 작 으면 Hooke의 법칙 이 매우 잘 작동 한다는 것을 알 수 있습니다 여기서 F 는 힘, k- 장력 계수, Δ x 는 무게의 위치입니다 .
무게를 너무 많이 넣거나 무게를 너무 많이 바꾸면 편차가 나타나기 시작합니다. 변위가 충분히 크면 운동이 선형 모델에서 벗어난 것처럼 보입니다. 따라서 선형 모델을 개선하기 위해 특이 치를 제거하려는 유혹을받을 수 있습니다 . Hooke의 법칙이 거의 맞기 때문에 모델이 제대로 작동하지 않기 때문에 이것은 좋은 생각이 아닙니다.
업데이트 귀하의 경우 해당 데이터 포인트를 가져 와서 자세히 살펴 보는 것이 좋습니다. 실험실 장비 고장 일 수 있습니까? 외부 간섭? 샘플 결함? 기타
다음으로 이러한 특이 치의 존재가 내가 제시 한 예에서 측정 한 것과 상관 될 수 있는지 확인하십시오. 상관 관계가 있으면 간단한 방법이 없습니다. 상관 관계가 없으면 특이 치를 제거 할 수 있습니다
It is always a cheating to remove outliers to improve a regression model.
스플라인 회귀 분석을 부정 행위 로 간주 합니까? FWIW, 그것은 않습니다 [로컬] 회귀 모델 ~ 개선하기 위해 아래로 무게 관찰
나는 원래 이것을 다른 답변에 대한 의견으로 게시하고 싶었지만 너무 길어서 적합하지 않았습니다.
모델을 볼 때 반드시 하나의 큰 그룹과 일부 특이 치를 포함하지는 않습니다. 제 생각에는 중간 크기의 그룹 (1 ~ -1) 1 개와 6 개의 작은 그룹이 포함되어 있으며 각각 2 개의 정수 사이에 있습니다. 정수에 도달 할 때 해당 주파수에서 관측치가 적다는 것을 분명히 알 수 있습니다. 유일하게 특별한 점은 0이며, 실제로 관측에서 눈에 띄는 하락이 없습니다.
내 의견으로는,이 배포판이 왜 다음과 같이 확산되는지를 다루는 것이 좋습니다.
별개의 인간 행동을 측정 할 때는 항상 특이 치가 있습니다. 왜 이러한 특이 치가 모델에 맞지 않는지, 그리고 모델의 향후 반복을 개선하는 데 어떻게 사용할 수 있는지 보는 것이 흥미로울 수 있습니다.
"정상 패턴"에 대해서만 특이 치를 제거하고 모델을 빌드하는 데 장단점이 있습니다.
장점 : 모델 성능이 더 좋습니다. 직감은 "일반 패턴"과 "외부 패턴"을 모두 캡처하기 위해 ONE 모델을 사용하기가 매우 어렵다는 것입니다. 따라서 특이 치를 제거하고 "정상 패턴"에 대한 모델 만 작성합니다.
단점 : 특이 치를 예측할 수 없습니다. 다시 말해, 모델을 프로덕션에 배치한다고 가정하면 모델에서 일부 누락 된 예측이있을 것입니다
특이 치를 제거하고 모델을 작성하고 가능한 경우 특이 치에 대해서만 별도의 모델을 작성하려고합니다.
"속임수"라는 단어의 경우, 종이를 쓰고 있고 특이 값을 정의하고 제거하는 방법을 명시 적으로 나열하면 개선 된 성능에 대한 언급은 깨끗한 데이터에만 적용됩니다. 부정 행위가 아닙니다.
if it is fine to produce no output in production
같은 일을 의미? 따라서 실제 변수로 모델을 사용하여 결과 변수를 테스트하고 응용 프로그램에서 예측 점수를 사용하는 경우 특이 치를 제거하는 것은 좋지 않습니다 (특히 언급 한 것보다 많은 경우)? 이것이 당신이 의미 한 것입니까?
확실한 질적 이유가있을 때 이상 치를 제거하는 것이 합리적이라고 생각합니다. 이것은 모델에없는 다른 변수가 특이 치 관측에 영향을 미친다는 정보를 가지고 있음을 의미합니다. 그런 다음 특이 치를 제거하거나 변수를 추가 할 수 있습니다.
데이터 세트 내에서 특이 치가 관측 될 때 특이 치가 존재하는 이유를 확인하기 위해 연구함으로써 내 데이터 및 고려할 수있는 다른 모델에 대해 자세히 알아 봅니다.