트리밍 백분율 대 트리밍 평균의 플롯을 어떻게 해석 할 수 있습니까?


12

숙제 질문의 일부로, 가장 작고 큰 관측을 삭제하여 데이터 집합에 대한 트림 평균을 계산하고 결과를 해석하라는 요청을 받았습니다. 트리밍 된 평균은 트리밍되지 않은 평균보다 낮았습니다.

내 해석은 기본 분포가 긍정적으로 비뚤어져 있기 때문에 왼쪽 꼬리가 오른쪽 꼬리보다 밀도가 높기 때문입니다. 이 왜도의 결과로 높은 데이텀을 제거하면 낮은 데이텀을 제거하는 것보다 평균이 더 낮아집니다. (이것이 합리적입니까?)

그런 다음 트리밍 백분율이 어떻게 영향을 미치는지 궁금해하기 때문에 트리밍 평균을 계산했습니다. 엑스¯tr(케이) 다양한 케이=1/,2/,,(21)/. 흥미로운 포물선 모양이 있습니다. 트리밍 백분율 대 트리밍 평균의 플롯;  대략 포물선으로 보이는 오목한 곡선을 형성합니다

이것을 해석하는 방법을 잘 모르겠습니다. 직관적으로, 그래프의 기울기는 분포의 일부에 대한 음의 왜도이어야합니다 (비례)케이중앙값의 데이터 포인트. (이 가설은 내 데이터로 확인되지만,=11확신이 없습니다.)

이 유형의 그래프에 이름이 있습니까, 아니면 일반적으로 사용됩니까? 이 그래프에서 어떤 정보를 얻을 수 있습니까? 표준 해석이 있습니까?


참고로 데이터는 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80입니다.

답변:


11

@ 궁과 @kjetil b. halvorsen은 둘 다 맞습니다.

나는 그런 그래프를 발견했다.

Rosenberger, JL 및 M. Gasko. 위치 추정기 비교 : 트리밍 된 평균, 중앙값 및 트리 메인. 에서 견고하고 탐색 적 데이터 분석 이해 , EDS가 있습니다. DC Hoaglin, F. Mosteller 및 JW Tukey, 297–338. 뉴욕 : 와일리.

Davison, AC 및 DV Hinkley. 1997. 부트 스트랩 방법 및 응용 프로그램. 케임브리지 : Cambridge University Press.

그리고 더 많은 예를 들어

Cox, NJ 2013. 취향에 맞게 다듬기. Stata Journal 13 : 640-666. http://www.stata-journal.com/article.html?article=st0313 [pdf 무료 이용]

그것은 잘린 수단의 여러 측면을 논의했습니다.

내가 아는 한 그래프에는 고유 한 이름이 없습니다. 가능한 모든 음모에 대한 별개의 이름은 실제로 작은 악몽입니다. ​​그래픽 용어는 이미 끔찍한 혼란입니다. 나는 이것을 트리밍 된 평균 대 트리밍 된 수, 분수 또는 퍼센트의 플롯이라고 부릅니다 (따라서 OP의 표현을 뒤집 음).

" vsus "에 대한 더 작은 의견 은 회귀 분석 에서 이분산성에 대한 나의 대답을 참조하십시오.

편집 : 아직 (언어 메이븐 전용)에 대한 자세한 내용은 여기를 참조 하십시오 .


10

이 그래프에 대해 들어 본 적이 없지만 매우 깔끔하다고 생각합니다. 아마 누군가 전에 이것을 한 적이있을 것입니다. 당신이 할 수있는 일은 데이터의 비율이 다른 것으로 생각할 때 평균이 어떻게 이동하고 안정화되는지 확인하는 것입니다. 포물선 모양을 얻는 이유는 (초기) 분포가 전체적으로 비스듬히 기울어 지지만 분포의 중심에서 비틀림 정도는 동일하지 않기 때문입니다. 비교를 위해 아래의 커널 밀도 도표를 고려하십시오.

여기에 이미지 설명을 입력하십시오

왼쪽에는 데이터가 하나씩 트리밍되는 데이터가 있습니다. 오른쪽에 다음 데이터가 있습니다. y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416), 같은 간격의 백분위 수에서 가져온 표준 로그 정규 분포의 Quantile이며 값의 범위를 비슷하게 만들기 위해 20을 곱합니다.

데이터가 비뚤어지기 시작하지만 5 행에는 비뚤어지기 때문에 더 많은 데이터를 트리밍하면 평균이 다시 시작됩니다. 오른쪽의 데이터는 트리밍이 계속 될 때와 비슷한 차이를 유지합니다.

다음은 로그 정규 데이터와 균일 데이터에 대한 도표입니다 ( z = 1:11, 비대칭-완벽 대칭).

여기에 이미지 설명을 입력하십시오 여기에 이미지 설명을 입력하십시오


4

나는 이런 종류의 그래프에 이름이 있다고 생각하지 않지만, 당신이하고있는 일은 합리적이며 해석은 유효하다고 생각합니다. 난 당신이 Hampel의 영향 기능과 관련이 무엇을하고 있는지 생각해 볼 https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function을 특히 경험에 영향을 미치는 기능에 대한 섹션을. 그리고 데이터가 완벽하게 대칭이면 플롯이 평평하기 때문에 플롯이 데이터의 왜도 측정과 관련이있을 수 있습니다. 당신은 그것을 조사해야합니다!

            EDIT     

이 플롯의 한 가지 확장은 왼쪽과 오른쪽에서 다른 트리밍을 사용하는 효과도 보여주는 것입니다. 이것은 R에서 mean인수 를 사용하여 일반적인 함수로 구현되지 않았기 때문에 trim자체 트리밍 평균 함수를 작성했습니다. 더 부드러운 플롯을 얻으려면 트리밍 분수가 정수가 아닌 포인트를 제거 할 때 선형 보간을 사용합니다. 이것은 기능을 제공합니다 :

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

그런 다음 일부 데이터를 시뮬레이션하고 결과를 등고선 플롯으로 표시합니다.

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

이 결과를주는 :

트리밍 효과를 보여주는 등고선도

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.