트리밍 평균 대 중앙값


9

응급 서비스에 대한 모든 전화와 구급차 부서의 응답 시간이 포함 된 데이터 세트가 있습니다. 그들은 녹음을 시작하지 않았거나 (값이 0), 시계를 멈추지 않은 경우 (값이 매우 높을 수 있음) 응답 시간에 약간의 실수가 있음을 인정했습니다.

나는 중심 경향을 알고 싶어하고 이상 값을 제거하기 위해 중간 또는 트림 된 평균을 사용하는 것이 더 좋은지 궁금합니다.


1
먼저 유효하지 않은 모든 데이터를 삭제합니다 (값 = 0). 그런 다음 히스토그램 또는 상자 그림으로 데이터를 시각화하여 내가 어디에 있는지 확인합니다. 10 %의 불량 데이터 가있는 경우 맹목적으로 데이터를 5 % 씩 트리밍 할 수 없기 때문에 ...
alesc

예, 또는 CDF를 꾸미십시오. R에서 다음과 같이하십시오 : times = times [times> 0]; plot (ecdf (times))
Paul

답변:


12

잘린 의미의 의미를 고려하십시오. 프로토 타입의 경우 먼저 데이터를 오름차순으로 정렬합니다. 그런 다음 하단에서 트리밍 백분율까지 세어 해당 값을 버립니다. 예를 들어 10 % 트림 평균이 일반적입니다. 이 경우 세트에있는 모든 데이터의 10 %를 통과 할 때까지 가장 낮은 값부터 계산합니다. 해당 마크 아래의 값은 따로 설정됩니다. 마찬가지로 트리밍 백분율을 통과 할 때까지 가장 높은 값에서 카운트 다운하고 모든 값을 그 값보다 크게 설정합니다. 이제 중간 80 %가 남았습니다. 당신은 그 평균을 취합니다, 그리고 그것은 10 % 트림 된 평균입니다. (두 테일에서 동일하지 않은 비율을 트리밍하거나 하나의 테일 만 트리밍 할 수 있지만 이러한 접근 방식은 일반적이지 않으며 상황에 적합한 것으로 보이지 않습니다.)

이제 50 % 트림 평균을 계산하면 어떻게 될지 생각해보십시오. 하반부는 상반기와 마찬가지로 옆으로 치워 질 것입니다. 중간 (일반적으로)에는 단일 값만 남게됩니다. 그 평균을 다듬은 평균으로 간주합니다 (즉, 해당 값만 가져갈 수 있음). 그러나 해당 값은 중앙값입니다. 다시 말해, 중앙값은 정돈 된 평균 (50 % 정돈 된 평균)입니다. 그것은 매우 공격적인 것입니다. 본질적으로 데이터의 99 %가 오염 된 것으로 가정합니다. 따라서 전력 / 효율성의 손실을 막고 이상치에 대해 최고의 보호 기능을 제공합니다 .

내 생각에 중간 / 50 % 손질 된 평균은 데이터에 필요한 것보다 훨씬 더 공격적이며 사용 가능한 정보가 너무 낭비입니다. 존재하는 특이 치의 비율을 알고 있다면 해당 정보를 사용하여 다듬기 비율을 설정하고 적절한 다듬기 평균을 사용합니다. 트리밍 백분율을 선택할 근거가없는 경우 교차 검증을 통해 하나를 선택하거나 인터셉트만으로 강력한 회귀 분석을 사용할 수 있습니다.


1
나는 이것의 정신에 동의하지만, 다듬은 수단은 반드시 각 꼬리에서 동일한 분획을 다듬는 것에 기초한다는 것을 암시하는 것으로 오해 될 수있다. 그것은 일반적인 절차이며, 거의 대칭이지만 아마도 뚱뚱한 분포의 참조 사례에 대해 가장 자주 논의되는 절차이지만 어떤 의미도 아닙니다. 꼬리 하나만 다듬는 것에 관한 문헌이 있는데, 모든 모호한 값이 꼬리에있을 때 의미가 있습니다.
Nick Cox

@NickCox, 좋은 지적입니다. 나는 그것을 명확히하기 위해 약간의 텍스트를 추가했습니다. 더 필요하다고 생각되면 알려주십시오.
gung-모니 티 복원

좋아 보인다 하나의 꼬리에서 자연스럽게 트리밍하는 것은 하나의 비율이 0 인 비율이 다른 특별한 경우입니다.
Nick Cox

@NickCox는 확실하지만 명시적인 것이 더 낫다고 생각했습니다.
gung-모니 티 복원

-1

우선, 유효하지 않은 데이터를 제거하십시오.

둘째, 특이 값이 관찰되는 이상 값을 제거 할 필요가 없습니다. 어떤 경우에는 (선형 회귀와 같이) 유용하지만 귀하의 경우에는 요점을 보지 못합니다.

마지막으로 데이터 중심을 찾는 것이 더 정확하기 때문에 중앙값을 사용하는 것이 좋습니다. 말했듯이 평균은 특이 치에 민감 할 수 있습니다 (잘린 평균을 사용하면 편향 될 수 있음).


3
위치 추정은 회귀의 특정 사례이므로 후자의 경우 특이 치를 제거하는 것이 유용하지만 전자의 경우에는 그렇지 않은 방법을 알고 싶습니다.
user603
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.