둘 이상의“중앙”공식이 있습니까?


16

필자의 작업에서 개인이 데이터 세트의 "평균"값을 참조 할 때 일반적으로 산술 평균 (예 : "평균"또는 "예상 값")을 나타냅니다. 기하 평균을 제공하면 사람들은 "평균"의 정의가 미리 알려져 있기 때문에 내가 저리거나 도움이되지 않는다고 생각할 것입니다.

데이터 세트의 "중앙"에 대한 여러 정의가 있는지 확인하려고합니다. 예를 들어, 짝수 개의 요소가있는 데이터 세트의 중앙값을 찾기 위해 동료가 제공 한 정의 중 하나는 다음과 같습니다.

알고리즘 'A'

  • 요소 수를 2로 나누고 내림합니다.
  • 이 값은 중앙값의 인덱스입니다.
  • 즉, 다음 집합의 경우 중앙값은입니다 5.
  • [4, 5, 6, 7]

반올림 측면은 약간 임의적 인 것처럼 보이지만 이것은 의미가있는 것 같습니다.

알고리즘 'B'

어쨌든 다른 동료는 별도의 알고리즘을 제안했는데, 이는 그의 이름과 저자를 필요로하는 통계 교과서에 있습니다.

  • 요소 수를 2로 나누고 반올림 및 반올림 정수의 사본을 유지하십시오. 이름을 지정 n_lo하고 n_hi.
  • n_lo및 의 요소의 산술 평균을 취하십시오 n_hi.
  • 즉, 다음 집합의 경우 중앙값은입니다 (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

이 경우 중앙값 5.5이 실제로 원래 데이터 세트에 없기 때문에 이것은 잘못된 것 같습니다 . 일부 테스트 코드에서 알고리즘 'A'를 'B'로 바꾸면 예상대로 끔찍하게 파산되었습니다.

질문

데이터 세트의 중앙값을 계산하기위한이 두 가지 접근 방식에 대한 공식적인 "이름"이 있습니까? 즉, "2 개 중 중앙값"대 "중간 요소 평균 및 새 데이터 중간 값"?


16
알고리즘 "A"가 중앙값으로 간주되는 것을 본 적이 없습니다. 데이터의 중심 경향에 대한 설명 통계가 데이터 자체에 속하지 않는다는 것은 문제가되지 않습니다. 결국 대부분의 수단도 데이터에 없습니다. 중앙값을 갖고 자하는 가장 기본적인 속성은 데이터 순서를 반대로해도 데이터가 변하지 않는다는 것입니다. 데이터를 최소에서 최대로 또는 최대에서 최소로 주문하는 것은 임의의 맛의 문제이기 때문입니다. 이러한 이유로 대부분의 저자는 알고리즘 "B"에서와 같이 중앙값을 정의합니다. 왜냐하면 이것이 가장 간단한 순서 불변 절차이기 때문입니다.
whuber

3
@whuber Algorithm 'A'는 때때로 중간 값낮습니다 . 물론 해당 High-median도 있습니다. 일반적으로 중앙값은 2의 평균입니다 (중앙값이 계산 된 집합에서 하나의 요소 일 수도 있고 아닐 수도 있음).
user603

8
1, 2, 3, 4, 5, 6의 3 및 4와 같이 짝수 개의 관측치가있는 순서가 지정된 표본의 두 중심 값이 코미디언 으로 간주된다는 의견을 반복하기에 좋은시기와 장소 (SM Stigler, R. Koenker 및 다른 사람에 의해 독립적으로 중단됨).
Nick Cox

3
두 알고리즘 모두 데이터 정렬의 중요한 단계를 빠뜨리지 않았습니까?
Emil

3
"중간 값"이 항상 데이터 세트의 요소 여야하는 경우 실제로 medoid를 찾고있을 수 있습니다 .
Ilmari Karonen

답변:


23

TL; DR-샘플 중간 값의 다른 추정기에 부여되는 특정 이름을 알지 못합니다. 일부 데이터에서 샘플 통계를 추정하는 방법은 다소 까다 롭고 리소스마다 다른 정의를 제공합니다.

Hogg, McKean 및 Craig의 수학적 통계 소개 에서 저자는 랜덤 샘플 의 중앙값에 대한 정의를 제공 하지만 샘플 수가 홀수 인 경우에만 가능합니다! 저자는 쓴다

와이(+1)/2

와이나는나는

알고리즘 B에는 데이터의 절반이 값 위에 있고 데이터의 절반이 값 아래에 있다는 속성이 있습니다. 랜덤 변수 의 중앙값에 대한 정의에 비추어 볼 때 이것은 좋은 것 같습니다.


특정 추정기가 단위 테스트를 중단하는지 여부는 단위 테스트의 속성입니다. 특정 추정기에 대해 작성된 단위 테스트가 다른 추정기를 대체 할 때 반드시 유지되는 것은 아닙니다. 이상적인 경우, 단위 테스트는 정의에 대한 교리적인 논쟁이 아니라 조직의 중요한 요구를 반영하기 때문에 선택되었습니다.


2
(+1) 우리는 또한 다음과 같이 덧붙일 수 있습니다. (지금까지는 대답에서 암시 적으로 모든 가중치가 동일하므로 중요하지 않습니다.) 누적 가중치 합계의 선형 보간이 가장 간단하지만 다른 종류의 보간이 의미가있는 상황이 있습니다. (2) 중앙값에 대한보다 엄격한 정의는 일반적으로 어딘가에 확률 급상승을 포함하여 불연속적이고 연속적이며 하이브리드적인 분포를 모두 포함하도록 의도됩니다.
Nick Cox

25

@Sycorax가 말한 것.

사실, 놀랍게도 일반적인 Quantile, 특히 중앙값에 대한 많은 정의가 있습니다. Hyndman & Fan (1996, 미국 통계 학자) ) 은 AFAIK라는 포괄적 인 개요를 제공합니다. 다른 유형에는 공식적인 이름이 없습니다. 사용중인 유형을 명확하게 지정해야 할 수도 있습니다. 실제 크기의 데이터 세트와 큰 차이가없는 경우가 많습니다.

데이터 세트에 중간 값으로 존재하지 않는 값, 예를 들어 (4, 5, 6, 7)에 대한 중간 값으로 5.5를 갖는 것이 일반적으로 허용된다는 점에 유의하십시오. 이것이 R의 기본 동작입니다.

> median(4:7)
[1] 5.5

R median()은 기본적으로 Hyndman & Fan 분류의 유형 7을 사용합니다.


6
"실제 크기의 데이터 세트와 큰 차이가없는 경우가 종종 있습니다." 나는 보통의 "재료가 차이를 만들면 더 많은 데이터가 필요하다"고 훔칠 것입니다. :)
Jason

1
값이 0, 1 (예)이고 거의 같은 0과 1 (평균 0.5에 가까운) 인 이진 변수가있는 경우 샘플 크기가 크면보고 된 중앙값이 0, 0.5 및 1 사이에서 앞뒤로 뒤집히는 것을 반드시 중지 할 필요는 없습니다. Mosteller와 Tukey ( Data Analysis and Regression 1977)는 중앙값이 특히 잘 작동하지 않는 경우와 같이 강한 이봉형과 거의 대칭적인 분포를 인용합니다.
Nick Cox

3

R에서 mad 함수에서는 "lo-median"이라는 용어를 사용하여 알고리즘 A를 설명하고, "hi-median"은 대신 반올림을 설명하고, "median"을 사용하여 알고리즘 B를 설명합니다. 가장 일반적인 정의).

흥미롭게도 R의 median()기능 에는 그러한 옵션이 없습니다 ! (그러나 R quantile()type세밀한 제어 가 필요합니다.)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.