Winsorizing vs. Trimming 데이터의 상대적인 장점은 무엇입니까?


31

데이터 분류 는 데이터 세트의 극단 값을 각 끝에서 특정 백분위 수 값 으로 바꾸는 것을 의미하며 , 트리밍 또는 자르기는 이러한 극단 값을 제거 합니다.

난 항상 같은 평균이나 표준 편차와 같은 통계를 계산할 때 이상치의 영향을 줄일 수있는 실행 가능한 옵션으로 설명한 두 가지 방법을 모두 볼 수 있지만, 내가 보지 못한 이유 하나가 다른 통해 하나를 선택할 수 있습니다.

Winsorizing 또는 Trimming을 사용할 때의 장점이나 단점이 있습니까? 한 가지 방법이 바람직한 특정 상황이 있습니까? 실제로 더 자주 사용됩니까, 아니면 기본적으로 상호 교환이 가능합니까?


2
여기에 나오는 용어는 오해의 소지가 있습니다. 트리밍은 극단적 인 값을 무시하고 각 꼬리의 일부를 무시하는 것을 의미합니다. 이는 꼬리에서 값을 삭제하거나 삭제하는 것을 의미하지는 않습니다. 특히 다른 분석에 해당 값을 포함해야 할 수도 있기 때문입니다. 잘림이라는 용어는 다른 의미에 가장 적합합니다. 예를 들어 en.wikipedia.org/wiki/Truncation_(statistics)
Nick Cox를

답변:


11

방금 넘어지는 트리밍에 대한 다른 관련 질문에서 한 대답은 왜 winsorizing 또는 triming을 사용할 수 있는지에 대한 다음과 같은 유용한 통찰력을 가졌 습니다.

잘린 분포를 취하는 경우 명시 적으로 다음과 같이 명시합니다. 분포의 특이 치 / 꼬리에 관심이 없습니다. "이상치"가 실제로 특이 치라고 생각하는 경우 (즉, 분포에 속하지 않지만 "다른 종류"임) 트리밍을 수행하십시오. 분포에 속한다고 생각하지만 덜 치우친 분포를 원한다면 winsorising에 대해 생각할 수 있습니다.

더 확실한 접근 방법이 있는지 궁금하지만 위의 논리는 합리적입니다.


4

모든 분야에서 자주 직면하는 좋은 질문입니다! 두 경우 모두 기술적으로 데이터 세트에서 제거합니다.

잘림 형태를 사용하기 위해 그래픽으로 추세를 찾으려고 할 때 일반적인 관행을 알고 있습니다. 플로팅 목적으로 전체 데이터 세트를 사용하고 해석을 위해 극단적 인 값을 제외하십시오.

'winsorizing'의 문제점은 추가하는 부분이 자체 완성되는 것입니다. 즉, 데이터 세트 자체에서 시작하여 지원하기 만합니다. 훈련 및 테스트 데이터 세트 사용 방법을 결정할 때 머신 러닝에서 교차 검증 / 분류 작업을 살펴보면 비슷한 문제가 있습니다.

나는 어떤 경우에도 표준화 된 접근법을 보지 못했습니다. 항상 데이터에 따라 다릅니다. 데이터의 백분위 수 (이상치)가 특정 비율의 변동성 / st를 일으키는 지 알아볼 수 있습니다. 변동성을 줄이면서 가능한 많은 데이터를 유지하는 것 사이의 균형을 찾으십시오.


6
위의 의견에서와 같이 "데이터 세트에서 제거"는 너무 강력합니다. 트리밍 또는 Winsorizing은 특정 계산에서 수행하거나 무시하거나 대체하는 것을 의미합니다. 썩은 과일을 버리는 것처럼 데이터 세트에서 꼬리 값을 제거 할 의무 는 없습니다 . 예를 들어, 가능한 특이 치에 직면하여 데이터가 올 때마다 데이터를 분석하고 트리밍을 기반으로 분석하고 그 차이를 확인할 수 있습니다.
Nick Cox

-1

이것은 좋은 질문이며, 내가 직면 한 질문입니다. 데이터 집합이 크거나 더 정확하게 변화하는 데이터 집합이있는 경우 소수의 데이터 값이 광범위하게 다양하지만 (표시해야하지만) 대부분의 데이터 집합이 좁은 대역 내에있는 경우, 데이터를 그대로 플롯하면 대부분의 데이터가 손실되는 세부 정보가 손실되고 정규화 또는 표준화에 적절한 차별화가 표시되지 않거나 (적어도 시각적으로) 원시 데이터가 대신 필요한 경우 잘림 또는 winsorizing 극단적 인 데이터 값은 더 나은 데이터 시각화에 도움이됩니다.


좋은 질문이지만 대답하지 않습니다. 잘라 내기 또는 Winsorizing이 시각화에 도움이 될 수 있다고 말합니다.
Nick Cox

-2

Winsorizing의 한 가지 장점은 계산이 더 효율적일 수 있다는 것입니다. 실제 잘린 평균을 계산하려면 모든 데이터 요소를 정렬해야하며 일반적으로 입니다. 그러나 빠른 선택 알고리즘 일반적으로 사용하여 25 % 및 75 % 백분위 수를 알아내는 효율적인 방법이 있습니다. 이러한 끝점을 알고 있으면 데이터를 빠르게 다시 반복하고 25 % 미만의 값을 25 % 값으로 바꾸고 75 % 이상을 75 % 및 평균으로 바꿀 수 있습니다. 이것은 Winsor 평균과 동일합니다. 그러나 25 % 또는 75 % 값이 고유 한 값이 아니기 때문에 데이터를 반복하고 25 % 값과 75 % 값 사이의 평균 데이터 만 잘린 평균과 동일하지 않습니다. 데이터 시퀀스 고려O(nlogn)O(n)(1,2,3,4,4). Winsor 평균은 입니다. 정확한 잘린 평균은 이어야합니다 . "빠른 선택"최적화 절단 평균은 입니다.(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4


1
중앙값을 계산하기 위해 모든 데이터를 정렬 할 필요는 없습니다 (원하는대로 중앙값을 계산할 필요가 . (가장 나쁜 경우) 인 중앙값을 찾기위한 알고리즘이 있습니다 . [또한 빠른 선택이 당신이 말하는 것처럼 O (n)에서 25 번째와 75 번째 백분위 수를 찾을 수 있다면, 왜 빠른 선택이 같은 순서로 50 번째 백분위 수를 찾을 수 없습니까?]O(nlogn)O(n)
Glen_b -Reinstate Monica

당신이 올바른지. 원본 게시물을 잘못 입력했습니다. 때로는 타이핑 손가락과 뇌가 동기화되지 않습니다. 실제 잘린 평균 을 올바르게 계산 하려면 모든 데이터 요소를 정렬해야합니다. 나는 이것이 사실이라고 믿는다. 답변으로 업데이트했습니다.
Mark Lakata

2
이것은 Winsorizing이 각 꼬리에서 25 %의 Winsorizing을 의미한다는 것을 의미하는 것 같습니다. 적절하다고 생각되는만큼 Winsorize 할 수 있습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.