이 질문은 인터넷에 정통하지 않은 친구가 물었습니다. 통계 배경이 없으며이 질문에 대해 인터넷을 검색했습니다.
문제는 : 특이 치를 평균값으로 대체 할 수 있습니까? 가능하다면이 진술을 뒷받침 할 책 참조 / 저널이 있습니까?
이 질문은 인터넷에 정통하지 않은 친구가 물었습니다. 통계 배경이 없으며이 질문에 대해 인터넷을 검색했습니다.
문제는 : 특이 치를 평균값으로 대체 할 수 있습니까? 가능하다면이 진술을 뒷받침 할 책 참조 / 저널이 있습니까?
답변:
분명히 가능하지만 그것이 좋은 아이디어가 될 수 있는지는 확실하지 않습니다.
이것이 제한적이거나 결함이있는 해결책 인 몇 가지 방법을 설명하겠습니다.
실제로, 당신은 당신의 유일한 추측 이 그 값이 평균이어야한다는 정도까지, 이상 치가 완전히 신뢰할 수 없다고 말하고 있습니다. 그것이 당신이 생각하는 것이라면, 더 나은 추측을 할 충분한 정보가 없기 때문에 문제의 관찰을 생략하는 것이 더 정직 할 것입니다.
아무 말도없이, @Frank Harrell이 암시 한 것처럼 특이 치를 식별하기위한 기준이나 기준이 필요합니다. 그렇지 않으면 판결 문제로 변호를 받더라도 이는 임의적이고 주관적인 절차입니다. 일부 기준에서는 이러한 방식으로 특이 치를 제거하면 부작용으로 더 많은 특이 치를 생성 할 수 있습니다. 예를 들어 특이 치가 평균에서 벗어난 표준 편차보다 더 많을 수 있습니다. 특이 치를 제거하면 표준 편차가 변경되고 이제 새 데이터 요소가 적용되는 방식으로 변경 될 수 있습니다.
아마도 여기의 평균은 다른 모든 값의 평균을 의미하며 @David Marx가 명시한 지점입니다. 이 규정이 없으면 아이디어가 모호합니다.
평균을 사용하면 안전하거나 보수적 인 절차가 될 수 있지만 값을 평균으로 변경하면 수준, 척도 및 모양 측정 및 불확실성 지표 (@whuber가 강조한 지점)를 포함한 거의 모든 다른 통계가 변경됩니다.
평균은 실현 가능한 값이 아닐 수도 있습니다. 간단한 예는 값이 정수인 경우이지만 일반적으로 평균은 정수가 아닙니다.
요약 측정 값을 사용하는 것이 신중해야한다는 생각에도 불구하고 중간 값이나 다른 측정 값 대신 평균을 사용하는 것은 약간의 정당성이 필요합니다.
다른 변수가있을 때마다 다른 변수를 참조하지 않고 한 변수의 값을 수정하면 다른 의미에서 데이터 포인트에 이상이 생길 수 있습니다.
특이 치와 함께해야 할 일은 공개적이고 매우 어려운 질문입니다. 느슨하게, 다른 솔루션과 전략은 다양한 매력을 가지고 있습니다. 다음은 가능성의 일부 목록입니다. 순서는 임의적이며 적용 가능성, 중요도 또는 기타 기준의 관점에서 순서를 전달하기위한 것이 아닙니다. 이러한 접근 방식이 상호 배타적 인 것도 아닙니다.
좋은 견해로 하나의 정의는 "[o] 공구는 대부분의 표본과 관련하여 놀람을 일으키는 표본 값"(WN Venables 및 BD Ripley. 2002. S. New York : Springer, p.119). 그러나 놀람은 보는 사람의 마음에 있으며 데이터의 암묵적이거나 명시적인 모델에 의존합니다. 특이 치가 전혀 놀랍지 않은 다른 모델이있을 수 있으므로 데이터는 실제로 정상보다 로그 정규 또는 감마입니다. 즉, 모델을 (재) 고찰 할 준비를하십시오.
실험실이나 현장으로 가서 다시 측정하십시오. 이것은 종종 실행 가능하지 않지만 여러 과학에서는 표준으로 보일 수 있습니다.
특이 치가 진짜인지 테스트합니다. 대부분의 테스트는 나에게 꽤 집중되어 있지만 상황에 맞는 믿을 수있는 테스트를 찾을 수 있습니다. 시험을 적용하기 위해서는 항상 시험이 적절하다는 비이성적 인 믿음이 필요합니다.
판단의 문제로 버리십시오.
다소 자동화 된 (일반적으로 "객관적인"규칙이 아닌) 규칙을 사용하여 버리십시오.
부분적으로 또는 완전히 무시하십시오. 이는 공식적 (예 : 트리밍)이거나 데이터 세트에 그대로 두는 문제 일 수 있지만 처리하기에는 너무 뜨거운 분석에서는 생략 할 수 있습니다.
Winsorizing과 같은 일종의 조정을 사용하여 잡아 당깁니다.
다른 강력한 추정 방법을 사용하여이를 무시하십시오.
변형 된 스케일로 작업하여 다운 다운하십시오.
비 ID 링크 기능을 사용하여 다운 다운
예측 변수를 사용하거나 사용하지 않고 적절한 뚱뚱한, 긴 꼬리 또는 두꺼운 꼬리 분포를 맞 춥니 다.
모형에서 지표 또는 더미 변수를 추가 예측 변수로 사용하여 수용합니다.
비모수 적 (예 : 순위 기반) 절차를 사용하여 문제를 회피하십시오.
부트 스트랩, 잭 나이 핑 또는 순열 기반 프로 시저를 사용하여 내재 된 불확실성을 처리하십시오.
결정 론적 논리에 따라 특이 치를 대체 할만한 값으로 대체하도록 편집하십시오. "18 세의 할머니는 그럴 것 같지 않지만, 문제의 사람은 1932 년에 태어 났기 때문에 아마도 81 세일 것입니다."
현재 받아 들일 수없는 흰색 마법을 사용하는 일부 대치 방법을 사용하여 불가능하거나 불가능한 특이 치를 대체하도록 편집하십시오.
유무에 관계없이 분석하고, 특이 치 (들)가 통계적으로, 과학적으로 또는 실질적으로 얼마나 큰 차이가 있는지 확인하십시오.
베이지안 뭔가. 세부 사항을 제공하는 것을 금지하는 것에 대한 나의 무지.
편집이 두 번째 판은 다른 답변과 의견으로부터 혜택을받습니다. 영감의 원천을 표시하려고했습니다.
귀하의 질문에 의해 암시 된 몇 가지 문제가 있습니다.
1-5 중 누구도 확실한 대답이 없습니다. 이러한 "이상치"가 잘못되었다고 생각하고 강력한 통계적 방법을 사용하고 싶지 않은 경우이를 누락시키고 하나의 가능한 솔루션으로 여러 대치를 사용할 수 있습니다. 변수가 종속 변수 인 경우 하나의 강력한 선택은 순서 회귀입니다.
제안서에는 수많은 결함이 있습니다. 아마 가장 큰 것입니다.
데이터를 수집하고 다음 값이 표시된다고 가정하십시오.
지금까지의 평균은 .
그런 다음 이상 치가옵니다.
따라서 평균으로 바꾸십시오.
다음 숫자는 좋습니다 :
이제 평균은 3입니다. 1 분 정도 기다립니다. 평균은 3입니다. 그러나 4 번째 값으로 발생했기 때문에 1000을 평균 2로 바꿨습니다. 샘플 순서를 변경하면 어떻게 되나요?
이제 1000 이전의 평균은 . 1000을 그 평균으로 바꿔야 합니까?
문제는 우리가 1000 대신에 대체하는 잘못된 데이텀 이 다른 데이터에 의존 한다는 것입니다. 샘플이 독립적 인 측정을 나타내는 것으로 가정한다면 이는 인식 론적 문제입니다.
그런 다음 가정에 맞지 않는 데이터를 보류하는 것이 아니라 위조하고 있다는 명백한 문제가 있습니다. 원하지 않는 결과가 발생하면가짜 값으로 대체하십시오. 이것은 잘못 되었기 때문에샘플의 개수 여야합니다. 지금는 샘플 수에 데이터에 추가 된 퍼지 값의 수를 더한 값을 나타냅니다. 기본적으로 관련된 모든 계산의 유효성을 파괴합니다: 퍼지 값을 사용하지 않는 것까지. 너의 퍼지 가치입니다!
기본적으로 적합하지 않은 결과를 제거하는 것은 한 가지 일입니다 (실험자의 기분 변화를 변화시키는 것이 아니라 알고리즘에 따라 일관되게 수행하면 정당화 될 수 있음).
철학적, 인식 론적, 윤리적 근거에 대한 명백한 위조 결과는 반대 할 만하다.
결과가 사용되는 방식과 관련이있는 약간의 소멸 상황이있을 수 있습니다. 예를 들어, 현재 평균으로 특이 치를 대체하는 것은 일부 임베디드 컴퓨터 알고리즘의 일부이므로 폐쇄 루프 제어 시스템을 구현할 수 있습니다. (일부 시스템 출력을 샘플링 한 다음 제어를 달성하기 위해 입력을 조정합니다.) 모든 것이 실시간이므로 누락 된 데이터 대신 지정된 시간 동안 무언가 를 공급해야합니다. 이 퍼징이 글리치를 극복하고 원활한 작동을 보장한다면 모든 것이 좋습니다.
다음은 디지털 전화의 또 다른 예입니다 : PLC (패킷 손실 은닉). 크랩이 발생하고 패킷이 손실되지만 통신은 실시간입니다. PLC는 올바르게 수신 된 패킷의 최근 피치 정보를 기반으로 가짜 음성 조각을 합성합니다. 따라서 스피커가 모음을 "aaa"라고 말하고 패킷이 손실 된 경우 PLC는 프레임 기간 (예 : 5 또는 10 밀리 초 등) 동안 "aaa"를 외삽하여 누락 된 패킷을 채울 수 있습니다. "aaa"는 스피커의 음성과 비슷합니다. 이는 "평균"을 사용하여 불량으로 간주되는 값을 대체하는 것과 유사합니다. 좋은 일입니다. 사운드 컷 인 / 아웃보다 낫고 명료도를 향상시킵니다.
데이터 퍼징이 실패한 작업을 처리하기 위해 사람들에게 거짓말을하는 프로그램의 일부라면, 그것은 또 다른 것입니다.
따라서 응용 프로그램과 독립적으로 생각할 수 없습니다. 통계는 어떻게 사용됩니까? 대체가 유효하지 않은 결론으로 이어질까요? 윤리적 의미가 있습니까?
Cousineau와 Chartier의이 기사는 특이 치를 평균으로 대체하는 것을 논의합니다.
http://www.redalyc.org/pdf/2990/299023509004.pdf
그들이 적다:
Tabachnick과 Fidell (2007)은 누락 된 데이터를 해당 셀에 남아있는 데이터의 평균으로 대체 할 것을 제안했습니다. 그러나이 절차는 모집단의 확산을 줄이고 관찰 된 분포를 더 렙 토쿠 르틱하게 만들고 1 형 오류의 가능성을 증가시키는 경향이 있습니다. 보다 정교한 기법 인 다중 대치 (multiple imputations)는 특이 치 (또는 누락 된 데이터)를 가능한 값으로 대체하는 것입니다 (Elliott & Stettler, 2007; Serfling & Dang, 2009).
또한 특이 값을 평균으로 대체하는 기능이있는 R 패키지 "이상 값"도 있습니다. 또한 Google 검색에서 SPSS에도 이러한 기능이 있음을 암시하는 여러 검색 결과를 보았지만 해당 프로그램에 익숙하지 않습니다. 아마도 당신이 스레드를 따르는 경우 연습에 대한 기술적 인 기초를 발견 할 수 있습니다.
특이 치를 다룰 때 명심해야 할 중요한 점은 유용한 정보를 제공하고 있는지 여부입니다. 데이터가 정기적으로 발생할 것으로 예상되는 경우 데이터에서 데이터를 제거하면 모델에서 예측하지 않을 것입니다. 물론, 그것은 모델이 무엇을하기를 원하는가에 달려 있지만 반드시 떨어 뜨릴 필요는 없다는 것을 명심해야합니다. 중요한 정보가 포함되어 있으면이를 설명 할 수있는 모델을 고려할 수 있습니다. 이를 수행하는 간단한 방법 중 하나는 변수를 기록하여 권력 법 관계를 설명하는 것입니다. 또는 팻 테일 오류 분포를 설명하는 모델을 사용할 수 있습니다.
당신이 그들을 잘라 내고 싶다면 일반적인 방법은 그것들을 떨어 뜨리 거나 Winsorise 를 사용하여 극단적 인 가치를 제거하는 것입니다. 교과서가 없지만 Wiki 링크는 더 자세히 읽으려면 일부를 참조하십시오. 적용된 통계에 대한 대부분의 텍스트에는 특이 치에 대한 섹션이 있어야합니다.
통계와 관련된 두 가지 유사한 접근 방식을 알고 있습니다.
더 자세한 예는 Wikipedia를 참조하십시오.
https://ko.wikipedia.org/wiki/Trimmed_estimator
https://ko.wikipedia.org/wiki/Winsorising
이것은 평균 계산과 같은 일부 통계에 유용합니다. 다듬어 진 / winsorized 평균은 종종 artihmetic 평균보다 실제 평균의 더 나은 추정입니다. 다른 경우 통계가 손상 될 수 있습니다. 예를 들어 분산을 계산할 때 트리밍은 항상 실제 분산을 과소 평가합니다. 실제로 극단적 인 관측 중 일부가 잘못되었다고 가정하면 Winsorization은 약간 나아질 것입니다 (아마도 여전히 과소 평가는하지만 많이는 아닙니다).
극단적 인 값을 평균으로 바꾸는 것이 여기에 어떻게 적합한 지 알 수 없습니다.
그러나 결 측값 대치 라는 또 다른 관행이 있습니다. 특이 치에 결함이 있고 가치가없는 데이터가 있다고 가정하면 제거하십시오. 그런 다음 대치를 수행 할 때 일반적인 대체 값은 평균 또는 모드입니다.
이상 값을 처리하는 기존의 접근 방식은 모델이 "좋은"데이터에 대해서만 훈련되도록 간단하게 제거하는 것입니다.
평균값은 해당 특이 치의 존재에 의해 영향을받습니다. 특이 치를 데이터 세트에서 제거한 후 계산 된 평균으로 특이 치를 대체하는 경우 회귀선 (단순 선형 회귀 분석에서)이 어쨌든 훈련 데이터의 평균을 통과하므로 차이가 없습니다 ( 그러나 추정치, 이상 치가 있음을 알고 있다면 원하는 것과 반대입니다.)
접근 방식이 모형에 미치는 영향은 특이 치의 영향 (수준)에 따라 다릅니다. 포인트를 완전히 제거하는 대신 제안한 접근 방식에 반대하는 것이 좋습니다.
yes the outliers can be replaced in may forms, for example, let's take a data-set of the size of Human heights, let's say we have some outliers like 500 cm and 400 cm then, we can just replace those data points that appear in the dataset because of some error that was caused during the recording of the data. so the options you can try is 1. replace it with the Median of the Whole color of the data (not the mean, as it is prone to outliers). 2. replace with the most Occurring data point in the Column. 3. If Categorial values then you can try Response coding.(wherein you Record the Probability of the word or the values occurring by the total number of words )