특이 값을 평균으로 바꾸기


31

이 질문은 인터넷에 정통하지 않은 친구가 물었습니다. 통계 배경이 없으며이 질문에 대해 인터넷을 검색했습니다.

문제는 : 특이 치를 평균값으로 대체 할 수 있습니까? 가능하다면이 진술을 뒷받침 할 책 참조 / 저널이 있습니까?


25
이 작업을 수행하는 것이 가능 하지만 그렇게하는 것이 적합한 상황을 상상하기는 어렵습니다.
Peter Flom-Monica Monica 복원

2
이미 더 많은 답변이 있지만 @Peter Flom의 한 문장 요약은 요약으로 일치하지 않을 것입니다.
Nick Cox

4
방 안에있는 코끼리는 아직 답이 없다. "이상 값"을 평균으로 바꾸면 데이터 집합의 평균이 유지되지만 다른 통계는 거의 변하지 않는다. 평균의 표준 오차 추정값도 변경합니다. 따라서 @Peter Flom의 의견을지지하는 결과 데이터 세트는 신뢰할 수있는 추론 형식에 유용하지 않은 것으로 보입니다. (교대로 그것은 독자적인 것이 아니라 반복 절차에서 중간 단계를 사용하여 특이 치를 식별함으로써 그러한 절차가 처음에 존재하는 이유를 설명 할 수있다)
whuber

1
@whuber 분명한 요점. 이 답변을 너무 빨리 읽는 사람이 놓치지 않도록 다른 대답으로 만들었습니다. 이 장치에 의해 유혹을 받았으며 분명히 일부 사람들이 있다는 사실은 (a) 좋은 생각이 아니라 (b) 나쁜 생각임을 깨달아야합니다.
닉 콕스

1
@ user2357112 사용되는 평균이 다른 값의 평균이라는 의미입니다. 신뢰할 수없는 것으로 간주되는 이상 값은 계산에 포함하지 않아야합니다.
Nick Cox

답변:


41

분명히 가능하지만 그것이 좋은 아이디어가 될 수 있는지는 확실하지 않습니다.

이것이 제한적이거나 결함이있는 해결책 인 몇 가지 방법을 설명하겠습니다.

  • 실제로, 당신은 당신의 유일한 추측 이 그 값이 평균이어야한다는 정도까지, 이상 치가 완전히 신뢰할 수 없다고 말하고 있습니다. 그것이 당신이 생각하는 것이라면, 더 나은 추측을 할 충분한 정보가 없기 때문에 문제의 관찰을 생략하는 것이 더 정직 할 것입니다.

  • 아무 말도없이, @Frank Harrell이 암시 한 것처럼 특이 치를 식별하기위한 기준이나 기준이 필요합니다. 그렇지 않으면 판결 문제로 변호를 받더라도 이는 임의적이고 주관적인 절차입니다. 일부 기준에서는 이러한 방식으로 특이 치를 제거하면 부작용으로 더 많은 특이 치를 생성 할 수 있습니다. 예를 들어 특이 치가 평균에서 벗어난 표준 편차보다 더 많을 수 있습니다. 특이 치를 제거하면 표준 편차가 변경되고 이제 새 데이터 요소가 적용되는 방식으로 변경 될 수 있습니다.

  • 아마도 여기의 평균은 다른 모든 값의 평균을 의미하며 @David Marx가 명시한 지점입니다. 이 규정이 없으면 아이디어가 모호합니다.

  • 평균을 사용하면 안전하거나 보수적 인 절차가 될 수 있지만 값을 평균으로 변경하면 수준, 척도 및 모양 측정 및 불확실성 지표 (@whuber가 강조한 지점)를 포함한 거의 모든 다른 통계가 변경됩니다.

  • 평균은 실현 가능한 값이 아닐 수도 있습니다. 간단한 예는 값이 정수인 경우이지만 일반적으로 평균은 정수가 아닙니다.

  • 요약 측정 값을 사용하는 것이 신중해야한다는 생각에도 불구하고 중간 값이나 다른 측정 값 대신 평균을 사용하는 것은 약간의 정당성이 필요합니다.

  • 다른 변수가있을 때마다 다른 변수를 참조하지 않고 한 변수의 값을 수정하면 다른 의미에서 데이터 포인트에 이상이 생길 수 있습니다.

특이 치와 함께해야 할 일은 공개적이고 매우 어려운 질문입니다. 느슨하게, 다른 솔루션과 전략은 다양한 매력을 가지고 있습니다. 다음은 가능성의 일부 목록입니다. 순서는 임의적이며 적용 가능성, 중요도 또는 기타 기준의 관점에서 순서를 전달하기위한 것이 아닙니다. 이러한 접근 방식이 상호 배타적 인 것도 아닙니다.

  • 좋은 견해로 하나의 정의는 "[o] 공구는 대부분의 표본과 관련하여 놀람을 일으키는 표본 값"(WN Venables 및 BD Ripley. 2002. S. New York : Springer, p.119). 그러나 놀람은 보는 사람의 마음에 있으며 데이터의 암묵적이거나 명시적인 모델에 의존합니다. 특이 치가 전혀 놀랍지 않은 다른 모델이있을 수 있으므로 데이터는 실제로 정상보다 로그 정규 또는 감마입니다. 즉, 모델을 (재) 고찰 할 준비를하십시오.

  • 실험실이나 현장으로 가서 다시 측정하십시오. 이것은 종종 실행 가능하지 않지만 여러 과학에서는 표준으로 보일 수 있습니다.

  • 특이 치가 진짜인지 테스트합니다. 대부분의 테스트는 나에게 꽤 집중되어 있지만 상황에 맞는 믿을 수있는 테스트를 찾을 수 있습니다. 시험을 적용하기 위해서는 항상 시험이 적절하다는 비이성적 인 믿음이 필요합니다.

  • 판단의 문제로 버리십시오.

  • 다소 자동화 된 (일반적으로 "객관적인"규칙이 아닌) 규칙을 사용하여 버리십시오.

  • 부분적으로 또는 완전히 무시하십시오. 이는 공식적 (예 : 트리밍)이거나 데이터 세트에 그대로 두는 문제 일 수 있지만 처리하기에는 너무 뜨거운 분석에서는 생략 할 수 있습니다.

  • Winsorizing과 같은 일종의 조정을 사용하여 잡아 당깁니다.

  • 다른 강력한 추정 방법을 사용하여이를 무시하십시오.

  • 변형 된 스케일로 작업하여 다운 다운하십시오.

  • 비 ID 링크 기능을 사용하여 다운 다운

  • 예측 변수를 사용하거나 사용하지 않고 적절한 뚱뚱한, 긴 꼬리 또는 두꺼운 꼬리 분포를 맞 춥니 다.

  • 모형에서 지표 또는 더미 변수를 추가 예측 변수로 사용하여 수용합니다.

  • 비모수 적 (예 : 순위 기반) 절차를 사용하여 문제를 회피하십시오.

  • 부트 스트랩, 잭 나이 핑 또는 순열 기반 프로 시저를 사용하여 내재 된 불확실성을 처리하십시오.

  • 결정 론적 논리에 따라 특이 치를 대체 할만한 값으로 대체하도록 편집하십시오. "18 세의 할머니는 그럴 것 같지 않지만, 문제의 사람은 1932 년에 태어 났기 때문에 아마도 81 세일 것입니다."

  • 현재 받아 들일 수없는 흰색 마법을 사용하는 일부 대치 방법을 사용하여 불가능하거나 불가능한 특이 치를 대체하도록 편집하십시오.

  • 유무에 관계없이 분석하고, 특이 치 (들)가 통계적으로, 과학적으로 또는 실질적으로 얼마나 큰 차이가 있는지 확인하십시오.

  • 베이지안 뭔가. 세부 사항을 제공하는 것을 금지하는 것에 대한 나의 무지.

편집이 두 번째 판은 다른 답변과 의견으로부터 혜택을받습니다. 영감의 원천을 표시하려고했습니다.


1
(+1) 좋은 답변입니다. 베이지안 측에서는 많은 일을 할 수 있지만 실제로는 그러한 가치를 얻는 방법 (이상치로 이어지는 과정)에 대한 모델을 만들려고합니다. 예를 들어, "각각의 데이터 값은 대량의 데이터보다 훨씬 더 많은 분포에서 나올 확률이 적고, 그 확률에 대해 사전 분포를두고 그보다 더 넓은 범위에 대한 선택을 공식화하는 것과 같은 단순한 것일 수 있습니다." 매개 변수의 배포 및 우선 순위. 효과는 모델에 맞지 않는 점의 영향을 줄입니다.
Glen_b-복지 주 모니카

16

귀하의 질문에 의해 암시 된 몇 가지 문제가 있습니다.

  1. "이상 값"이란 무엇입니까?
  2. "이상 값"을 교체해야합니까?
  3. 다른 추정치와 달리 평균에서 특별한 점은 무엇입니까?
  4. 분산이 너무 작은 단일 값으로 대체시 겉보기 분산을 증가 시키려면 어떻게 보상 하시겠습니까?
  5. 특이 치에 강한 견고한 추정기를 사용하지 않는 이유는 무엇입니까?
  6. 이것은 독립 변수입니까 아니면 종속 변수입니까?

1-5 중 누구도 확실한 대답이 없습니다. 이러한 "이상치"가 잘못되었다고 생각하고 강력한 통계적 방법을 사용하고 싶지 않은 경우이를 누락시키고 하나의 가능한 솔루션으로 여러 대치를 사용할 수 있습니다. 변수가 종속 변수 인 경우 하나의 강력한 선택은 순서 회귀입니다.


1
+1, 좋은 포인트. 나는 OLR 제안에 흥미를 느낀다. Tukey의 bisquare와 같은 강력한 손실 함수를 선호하는 이유가 있습니까?
gung-Monica Monica 복원

2
순서 회귀 분석은 아마도 그보다 약간 더 강력 할 수 있으며, 잘 정의 된 양 (평균, 분위수 및 확률)을 추정 할 수 있습니다. 또한 가능성 비율, Wald 및 점수 검정 및 신뢰 구간의 모든 기능을 사용할 수 있습니다. 중앙값 추정와이 그리고 의미 와이서수 회귀에서 중복은 중복되지 않습니다. 즉, 사소하게 연결되어 있지 않지만 분포 가정이 적기 때문에 "부동"할 수 있습니다.
Frank Harrell

9

제안서에는 수많은 결함이 있습니다. 아마 가장 큰 것입니다.

데이터를 수집하고 다음 값이 표시된다고 가정하십시오.

2,,1

지금까지의 평균은 6/=2.

그런 다음 이상 치가옵니다.

2,,1,1000

따라서 평균으로 바꾸십시오.

2,,1,2

다음 숫자는 좋습니다 :

2,,1,2,7

이제 평균은 3입니다. 1 분 정도 기다립니다. 평균은 3입니다. 그러나 4 번째 값으로 발생했기 때문에 1000을 평균 2로 바꿨습니다. 샘플 순서를 변경하면 어떻게 되나요?

2,,1,7,1000

이제 1000 이전의 평균은 (2++1+7)/4=13/4. 1000을 평균으로 바꿔야 합니까?

문제는 우리가 1000 대신에 대체하는 잘못된 데이텀 이 다른 데이터에 의존 한다는 것입니다. 샘플이 독립적 인 측정을 나타내는 것으로 가정한다면 이는 인식 론적 문제입니다.

그런 다음 가정에 맞지 않는 데이터를 보류하는 것이 아니라 위조하고 있다는 명백한 문제가 있습니다. 원하지 않는 결과가 발생하면가짜 값으로 대체하십시오. 이것은 잘못 되었기 때문에샘플의 개수 여야합니다. 지금는 샘플 수에 데이터에 추가 된 퍼지 값의 수를 더한 값을 나타냅니다. 기본적으로 관련된 모든 계산의 유효성을 파괴합니다: 퍼지 값을 사용하지 않는 것까지. 너의 퍼지 가치입니다!

기본적으로 적합하지 않은 결과를 제거하는 것은 한 가지 일입니다 (실험자의 기분 변화를 변화시키는 것이 아니라 알고리즘에 따라 일관되게 수행하면 정당화 될 수 있음).

철학적, 인식 론적, 윤리적 근거에 대한 명백한 위조 결과는 반대 할 만하다.

결과가 사용되는 방식과 관련이있는 약간의 소멸 상황이있을 수 있습니다. 예를 들어, 현재 평균으로 특이 치를 대체하는 것은 일부 임베디드 컴퓨터 알고리즘의 일부이므로 폐쇄 루프 제어 시스템을 구현할 수 있습니다. (일부 시스템 출력을 샘플링 한 다음 제어를 달성하기 위해 입력을 조정합니다.) 모든 것이 실시간이므로 누락 된 데이터 대신 지정된 시간 동안 무언가 를 공급해야합니다. 이 퍼징이 글리치를 극복하고 원활한 작동을 보장한다면 모든 것이 좋습니다.

다음은 디지털 전화의 또 다른 예입니다 : PLC (패킷 손실 은닉). 크랩이 발생하고 패킷이 손실되지만 통신은 실시간입니다. PLC는 올바르게 수신 된 패킷의 최근 피치 정보를 기반으로 가짜 음성 조각을 합성합니다. 따라서 스피커가 모음을 "aaa"라고 말하고 패킷이 손실 된 경우 PLC는 프레임 기간 (예 : 5 또는 10 밀리 초 등) 동안 "aaa"를 외삽하여 누락 된 패킷을 채울 수 있습니다. "aaa"는 스피커의 음성과 비슷합니다. 이는 "평균"을 사용하여 불량으로 간주되는 값을 대체하는 것과 유사합니다. 좋은 일입니다. 사운드 컷 인 / 아웃보다 낫고 명료도를 향상시킵니다.

데이터 퍼징이 실패한 작업을 처리하기 위해 사람들에게 거짓말을하는 프로그램의 일부라면, 그것은 또 다른 것입니다.

따라서 응용 프로그램과 독립적으로 생각할 수 없습니다. 통계는 어떻게 사용됩니까? 대체가 유효하지 않은 결론으로 ​​이어질까요? 윤리적 의미가 있습니까?


전화 통신 이야기는 매우 흥미롭지 만 결 측값을 대체하는 것은 방어 가능한 보간 문제입니다. 순전히 로컬 작업 만 필요하고 로컬 변경 사항이 전체 데이터 집합의 "분석"에 부수적이기 때문에 이상치 교체와의 연결은 미흡합니다.
Nick Cox

2
여기서 흥미로운 아이디어가 많이 있습니다 (+1). 그러나 교체 절차가 반드시 순차적 인 것은 아닙니다. 한 번에 모든 "이상 값"을 식별 하고 나머지를 모두 평균으로 대체 할 수 있습니다. 이것은 Winsorizing과는 다른 일관된 절차입니다.
whuber

6

Cousineau와 Chartier의이 기사는 특이 치를 평균으로 대체하는 것을 논의합니다.

http://www.redalyc.org/pdf/2990/299023509004.pdf

그들이 적다:

Tabachnick과 Fidell (2007)은 누락 된 데이터를 해당 셀에 남아있는 데이터의 평균으로 대체 할 것을 제안했습니다. 그러나이 절차는 모집단의 확산을 줄이고 관찰 된 분포를 더 렙 토쿠 르틱하게 만들고 1 형 오류의 가능성을 증가시키는 경향이 있습니다. 보다 정교한 기법 인 다중 대치 (multiple imputations)는 특이 치 (또는 누락 된 데이터)를 가능한 값으로 대체하는 것입니다 (Elliott & Stettler, 2007; Serfling & Dang, 2009).

또한 특이 값을 평균으로 대체하는 기능이있는 R 패키지 "이상 값"도 있습니다. 또한 Google 검색에서 SPSS에도 이러한 기능이 있음을 암시하는 여러 검색 결과를 보았지만 해당 프로그램에 익숙하지 않습니다. 아마도 당신이 스레드를 따르는 경우 연습에 대한 기술적 인 기초를 발견 할 수 있습니다.

참고 문헌

  • Cousineau, D., & Chartier, S. (2010). 특이점 탐지 및 치료 : 검토. 국제 심리학 저널, 3 (1), 58-67.

나는 "mean"이라는 단어의 모든 발생에 대한 참조를 검색했으며 이상 값을 평균으로 바꾸는 것을 논의 곳을 찾을 수 없었습니다 . 내가 놓친 부분이 있다면이 토론이 어디에서 발생하는지 더 정확하게 나타낼 수 있습니까?
whuber

1
링크가 작동하지 않아서 링크를 변경했습니다. 문서의 9 페이지에서 저자는 "가짜 활동의 결과 인 명백한 이상은 제거해야합니다. 그러나 다변량 설계에서는 분석을 더 이상 수행 할 수 없을 정도로 너무 많은 참가자를 제거 할 수 있습니다" Tabachnick과 Fidell (2007)은 누락 된 데이터를 해당 셀에 남아있는 데이터의 평균으로 대체 할 것을 제안했다. "
Thomas

2
고마워요 : 지금 봅니다. 이 통로는 단지 변수 애플리케이션 및 (b)에 대한 평균 교체 과정 (a)을 언급하고 있으므로, 다소 잘못 될 수있다 -하지만, "설명"으로이를 설명 - 제안 장단점 일부 균형이있을 수 단독 결함을 지적하고 대신 여러 대치를 고려하도록 제안합니다. (흥미롭게도,이 절차에 대한 논문의 참고 문헌은 참고 문헌에도 나타나지 않습니다.)
whuber

5
예, 인용 된 참고 문헌이 턱받이에없는 것이 이상합니다. "ANOVA를 사용한 실험 설계"책인 것 같습니다. 원래 요청에 응답하고 특이 치의 평균을 대체하는 방법에 대한 참조를 제공하려고했습니다. 그 논문은 내가 빠른 검색에서 찾을 수있는 전부 였고 OP가보다 완전한 답을 찾을 수 있도록 리드를 제공 할 수 있기를 바랐다.
토마스

4

특이 치를 다룰 때 명심해야 할 중요한 점은 유용한 정보를 제공하고 있는지 여부입니다. 데이터가 정기적으로 발생할 것으로 예상되는 경우 데이터에서 데이터를 제거하면 모델에서 예측하지 않을 것입니다. 물론, 그것은 모델이 무엇을하기를 원하는가에 달려 있지만 반드시 떨어 뜨릴 필요는 없다는 것을 명심해야합니다. 중요한 정보가 포함되어 있으면이를 설명 할 수있는 모델을 고려할 수 있습니다. 이를 수행하는 간단한 방법 중 하나는 변수를 기록하여 권력 법 관계를 설명하는 것입니다. 또는 팻 테일 오류 분포를 설명하는 모델을 사용할 수 있습니다.

당신이 그들을 잘라 내고 싶다면 일반적인 방법은 그것들을 떨어 뜨리 거나 Winsorise 를 사용하여 극단적 인 가치를 제거하는 것입니다. 교과서가 없지만 Wiki 링크는 더 자세히 읽으려면 일부를 참조하십시오. 적용된 통계에 대한 대부분의 텍스트에는 특이 치에 대한 섹션이 있어야합니다.


3

통계와 관련된 두 가지 유사한 접근 방식을 알고 있습니다.

  • 트림 된 수단 : 평균을 계산할 때 데이터의 최소 및 최대 관측치 (예 : 상단 및 하단)를 삭제합니다 1마다; 대칭 적으로해야합니다!)
  • Winsorization : 다듬은 평균과 유사하게 극단적 인 관측치 만 수정합니다. 그러나이를 삭제하는 대신 최대 / 최소 비극 대 관측치로 대체합니다. 이것은 종종 트리밍보다 약간 더 잘 작동합니다.

더 자세한 예는 Wikipedia를 참조하십시오.

https://ko.wikipedia.org/wiki/Trimmed_estimator

https://ko.wikipedia.org/wiki/Winsorising

이것은 평균 계산과 같은 일부 통계에 유용합니다. 다듬어 진 / winsorized 평균은 종종 artihmetic 평균보다 실제 평균의 더 나은 추정입니다. 다른 경우 통계가 손상 될 수 있습니다. 예를 들어 분산을 계산할 때 트리밍은 항상 실제 분산을 과소 평가합니다. 실제로 극단적 인 관측 중 일부가 잘못되었다고 가정하면 Winsorization은 약간 나아질 것입니다 (아마도 여전히 과소 평가는하지만 많이는 아닙니다).

극단적 인 값을 평균으로 바꾸는 것이 여기에 어떻게 적합한 지 알 수 없습니다.

그러나 결 측값 대치 라는 또 다른 관행이 있습니다. 특이 치에 결함이 있고 가치가없는 데이터가 있다고 가정하면 제거하십시오. 그런 다음 대치를 수행 할 때 일반적인 대체 값은 평균 또는 모드입니다.

https://ko.wikipedia.org/wiki/Imputation_%28statistics%29


1
비대칭 트리밍은 알려져 있고 방어 가능한 전술입니다.
Nick Cox

2

이상 값을 처리하는 기존의 접근 방식은 모델이 "좋은"데이터에 대해서만 훈련되도록 간단하게 제거하는 것입니다.

평균값은 해당 특이 치의 존재에 의해 영향을받습니다. 특이 치를 데이터 세트에서 제거한 후 계산 된 평균으로 특이 치를 대체하는 경우 회귀선 (단순 선형 회귀 분석에서)이 어쨌든 훈련 데이터의 평균을 통과하므로 차이가 없습니다 ( 그러나 추정치, 이상 치가 있음을 알고 있다면 원하는 것과 반대입니다.)

접근 방식이 모형에 미치는 영향은 특이 치의 영향 (수준)에 따라 다릅니다. 포인트를 완전히 제거하는 대신 제안한 접근 방식에 반대하는 것이 좋습니다.


4
제거 절차가 객관적이고 예측이 이루어지는 모든 미래 데이터에 동일한 절차가 적용되지 않는 한, 데이터 제거는 편견을 유발할 것이다.
Frank Harrell

0

yes the outliers can be replaced in may forms, for example, let's take a data-set of the size of Human heights, let's say we have some outliers like 500 cm and 400 cm then, we can just replace those data points that appear in the dataset because of some error that was caused during the recording of the data. so the options you can try is 1. replace it with the Median of the Whole color of the data (not the mean, as it is prone to outliers). 2. replace with the most Occurring data point in the Column. 3. If Categorial values then you can try Response coding.(wherein you Record the Probability of the word or the values occurring by the total number of words )

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.