특이 치를 탐지하는 간단한 방법이 있습니까?


14

특이 치를 탐지하는 간단한 방법이 있는지 궁금합니다.

기본적으로 응답자가 일주일 동안 신체 활동에 참여한 횟수와 일주일 동안 집 밖에서 먹는 횟수 (패스트 푸드) 사이의 상관 관계인 내 프로젝트 중 하나에 대해, 나는 산점도를 그렸습니다. 극단적 인 데이터 포인트. 산점도는 음의 상관 관계를 나타 냈습니다.

이는 가치 판단 (이러한 데이터 요소가 분명한 산점도를 기반으로 함)을 기반으로합니다. 나는 통계 테스트를하지 않았다.

이것이 특이 치를 다루는 건전한 방법인지 궁금합니다.

350 명의 데이터를 가지고 있으므로 20 개의 데이터 포인트를 잃어 버릴 염려가 없습니다.



3
또한 stats.stackexchange.com/questions/175 와 매우 밀접한 관련이 있습니다 . 많은 잠재적 인 이상치 탐지 방법이 stats.stackexchange.com/questions/213의 답변에 설명되어 있습니다. 그러나 더 중요한 것은 어떤 맥락 이 될 것 입니다.이 산점도로 무엇을하고 있습니까? 어떤 결론을 이끌어 내려고합니까? 일부 결론은 특이 치로 수행하는 작업에 거의 의존하지 않지만 다른 결론은 비판적으로 의존 할 수 있습니다. 이는 특이 치를 식별하고 처리하는 데 사용하는 방법이 의도 한 분석에 따라 달라짐을 나타냅니다.
whuber

경제학 데이터 세트에서 표준 관행은 "데이터 세트를 2.5 %와 97.5 %로 윈드 소르"또는 대안 적으로 1 %와 99 %라고 말하는 것입니다. 그런 다음 해당 Quantile 범위를 벗어난 관측치를 삭제합니다.

@Harokitty Winsorising 은 값을 버리는 것이 아니라 클리핑하는 것을 의미합니다.
피터 우드

또한 데이터 기록 오류와는 별도로 산점도를 편집하지 않은 상태로보고하는 것이 좋습니다. 하나 이상의 추가 인구가 존재할 수 있습니다. 예를 들어, en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

답변:


21

특이 치를 제거하는 간단한 사운드 방법은 없습니다. 특이 치는 두 가지 종류가 될 수 있습니다.

1) 데이터 입력 오류. 이것들은 종종 발견하기 쉽고 가장 다루기가 가장 쉽습니다. 올바른 데이터를 찾을 수 있으면 수정하십시오. 그렇지 않은 경우 삭제하십시오.

2) 비정상적인 합법적 인 데이터. 이것은 훨씬 까다 롭습니다. 귀하와 같은 이변 량 데이터의 경우 특이 치는 일 변량 또는 이변 량일 수 있습니다.

a) 일 변량. 첫째, "비정상적인"분포와 표본 크기에 따라 다릅니다. 350의 표본 크기를 주지만 분포는 무엇입니까? 상대적으로 작은 정수이므로 분명히 정상이 아닙니다. 포아송에서 특이한 것은 음 이항 아래에 있지 않을 것입니다. 나는 0으로 부풀린 음의 이항 관계를 의심합니다.

그러나 분포가 있더라도 (가능한) 특이 치는 모수에 영향을 미칩니다. 데이터에 q 이외의 모든 점이있는 경우 데이터 점 q가 특이 치인지 확인하는 "일 회분 한 분포"분포를 볼 수 있습니다. 그럼에도 불구하고 여러 특이 치가있는 경우 어떻게해야합니까?

b) 이변 량. 이것은 변수의 값이 그 자체로는 드문 경우이지만 함께 이상합니다. 센서스가 한때 미국에 20,000 명의 12 세의 미망인이 있다고 말한 외경 보고서가있을 수 있습니다. 12 살짜리 아이들은 이례적이지 않고, 미망인도 아니지만, 12 살짜리 미망인도 있습니다.

이 모든 것을 감안할 때 강력한 관계 척도를보고하는 것이 더 간단 할 수 있습니다.


감사. 나는 확신 타원이 특정 신뢰 수준 (이변 량 정규 분포)에 속하는 데이터의 백분율을 보여주기 때문에 특이 치의 좋은 지표 일 것이라고 생각합니다.
Amarald

데이터는 음이 아닌 정수로 구성되어 있기 때문에 이변 량 정규 데이터를 사용할 수 없습니다.
Peter Flom-Reinstate Monica

18

특히 1978 년부터 1980 년까지 Oak Ridge에서 에너지 데이터 검증 작업을 수행 할 때 특이점에 대해 많은 연구를 수행했습니다. 정상 데이터에 대한 일 변량 특이점에 대한 공식 테스트가 있습니다 (예 : Grubbs '테스트 및 Dixon 's 비율 테스트). 다변량 특이 치 및 시계열에 대한 테스트가 있습니다. "통계 데이터의 특이 치"에 대한 Barnett 및 Lewis의 저서는 특이 치에 대한 성경이며 거의 모든 내용을 다룹니다.

오크 릿지에서 데이터 검증 작업을 할 때 큰 다변량 데이터 세트가있었습니다. 일 변량 특이 치의 경우 극단 방향 (평균 이상 및 평균 미만)이 있습니다. 그러나 다변량 특이점의 경우 특이점을 찾아야 할 방향이 많이 있습니다. 우리의 철학은 데이터의 의도 된 용도가 무엇인지 고려하는 것이 었습니다. 이변 량 상관 또는 회귀 계수와 같은 특정 매개 변수를 추정하려는 경우 관심 매개 변수에 가장 큰 영향을주는 방향을보고 싶습니다. 당시 나는 영향력 기능에 관한 Mallows의 미공개 논문을 읽었다. 특이 치를 탐지하기위한 영향 함수 사용은 Gnanadesikan의 다변량 분석 책에서 다룹니다. 물론 Barnett과 Lewis에서도 찾을 수 있습니다.

모수에 대한 영향 함수는 관측치의 다변량 공간에있는 점에서 정의되며 데이터 점이 제외 될 때와 비교할 때 모수 추정치 간의 차이를 본질적으로 측정합니다. 각 샘플 포인트로 이러한 추정을 수행 할 수 있지만 일반적으로 통찰력과 빠른 계산을 제공하는 영향 함수에 대한 훌륭한 기능적 형태를 도출 할 수 있습니다.

예를 들어, 1982 년 American Journal of Mathematical and Management Science의 논문에서 "영향 함수와 데이터 검증에의 적용"이변 량 상관에 대한 영향 함수에 대한 분석 공식을 보여주고 일정한 영향의 윤곽은 과장법입니다. 따라서 윤곽은 영향 기능이 가장 빠르게 증가하는 평면의 방향을 보여줍니다.

필자의 논문에서 우리는 에너지 생성 및 소비에 대한 FPC Form 4 데이터와 이변 량 상관에 영향 함수를 적용하는 방법을 보여줍니다. 이 둘 사이에는 분명한 양의 상관 관계가 있으며 상관 관계 추정치에 큰 영향을 미치는 몇몇 특이 치가 발견되었습니다. 추가 조사에 따르면 포인트 중 하나 이상에 오류가있어 수정할 수있었습니다.

그러나 특이점을 논의 할 때 항상 언급하는 중요한 점은 자동 거부가 잘못되었다는 것입니다. 특이 치는 항상 오류가 아니며 때로는 데이터에 대한 중요한 정보를 제공합니다. 실제 이론과 맞지 않기 때문에 유효한 데이터를 삭제해서는 안됩니다. 수행하기 어려운지 여부에 관계없이 이상 치가 발생한 이유를 항상 조사해야합니다.

이 사이트에서 다변량 특이 치에 대해 논의한 것은 이번이 처음이 아닙니다. 특이점을 검색하면 다변량 특이점에 대해 여러 가지 질문이있을 수 있습니다. 본인은 본인의 논문과이 책을 참조한 후 링크를 ​​제공 한 것으로 알고 있습니다.

또한 특이 치 거부에 대해 논의 할 때이 사이트의 많은 사람들이 통계 테스트만을 기반으로하는 경우 특히이 사이트에 대해 추천했습니다. Peter Huber는 종종 특이 치 거부에 대한 대안으로 강력한 평가를 언급합니다. 아이디어는 강력한 절차로 인해 특이 값을 거부하고 비 강력 추정기를 사용하지 않고도 추정치에 대한 영향을 감소시키는 이상치의 가중치를 낮출 수 있습니다.

영향 기능은 실제로 1970 년대 초에 그의 박사 학위 논문에서 Frank Hampel에 의해 개발되었습니다 (1974 년 생각). 그의 아이디어는 실제로 영향 함수를 사용하여 특이 치에 대해 강력하지 않은 추정기를 식별하고 강력한 추정기를 개발하는 데 도움이되었습니다.

여기 에 영향 함수를 사용하여 시계열의 특이 치를 탐지하는 것에 대한 내 작업을 언급 한이 주제에 대한 이전 토론에 대한 링크가 있습니다.


2

특이 치를 처리하는 또 다른 간단한 방법은 비모수 통계를 사용하는 것입니다. 아마도 표본 크기에서 Spearman의 rho는 상관 관계의 지표로 잘 작동합니다. (비모수, 순위 순서 통계는 비선형 관계에 큰 도움이되지 않습니다.)

Pearson 's r (모수 통계량)을 사용하고 Cook의 거리를 계산할 수없는 경우 평균에서 2.67 표준 편차 (sd)를 초과하는 모든 데이터 포인트에 대한 표준 경험 법칙을 사용할 수 있습니다. 평균에서, 또는 4.67 sd는 각각 특이 치 또는 극치입니다. 이는 하나의 표준 통계 분석 프로그램 (SPSS)에 사용되는 특이 치 및 극한 데이터 포인트에 대한 일반적인 컷오프 값입니다.

데이터 포인트가 특이 치라고해서 폐기해야하는 데이터가 나쁜 것은 아닙니다. 극한 점의 유무에 관계없이 상관 관계를 계산하여 거기서 나올 수 있습니다.


1

Cook 's Distance를 시도해 볼 수 있습니다. 제안 된 컷오프에 대해서는 Wikipedia 기사를 참조하십시오. 또한 일부 회귀 모형으로 향하는 경우 강력한 회귀를 시도 할 수 있습니다.


1
이것은 답변보다 주석처럼 보입니다. 답변은 일반적으로 더 길고 상세합니다. 예를 들어 왜 Cook의 거리가 특이 치와 그에 대한 좋은 시험인지에 대한 추론을 포함 시켰다면 이것이 답이 될 것입니다.
Peter Flom-Monica Monica 복원

1

첫째, 연구 결과가 확실하지 않은 이상 비정형 값을 제거하지 마십시오! 중요한 정보가 포함되어있을 수 있습니다 (변수). 특이 치가 잘못 입력되거나 측정 된 데이터로 인한 것이 분명한 경우이를 삭제해야합니다. 데이터를 얻는 데 사용 된 샘플링 방법을 모르는 경우 다음과 같이 비정형 값과 그 영향을 식별해야합니다.

  1. ei )> 2 인 가 더 많으면 특이 치를 의심 할 수 있습니다.

  2. hiihii

  3. 나는-.
    Cook의 거리 또는 Cook의 D는 일반적으로 데이터 포인트의 영향을 추정하는 데 사용됩니다. :나는=이자형나는2·h나는나는/[(1h나는나는)·]

가능한 해결책:

  • 변수 변환 및 / 또는 모델에 새 변수 추가
  • 특이 치에 지나지 않는 영향력있는 관찰의 경우, 많지 않더라도 해당 개인을 제거 할 수 있습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.