우리는 언제 Quantiles와 Median 대신에 tantile과 medial을 사용할 것입니까?


14

Wikipedia 또는 Wolfram Mathworld에서 탄탈 또는 내측에 대한 정의를 찾을 수 없지만 다음 설명은 Bílková, D. 및 Mala, I. (2012), " 소득 분포를 모델링 할 때 L- 모멘트 방법 적용 체코 공화국 ", 통계의 오스트리아 저널 , 41 (2), 125-132.

내측은의 값 , 샘플이 중간 값에 해당하는 것처럼 (샘플) tantile 50 %의 시료를 분위수. 샘플 탠 타일 및 샘플 Quantile은 순서가 지정된 샘플을 기반으로합니다. 우선, 순서가 지정된 샘플의 누적 관측치 합계가 평가됩니다. 그런 다음 주어진 백분율 p , 0 < p < 100 에 대해 p % 탄 타일은 정렬 된 샘플의 모든 관측 값을 두 부분으로 나누는 분석 된 변수의 값으로 정의됩니다. 더 작거나 동일한 관측 값의 합은 p %50%50%p0<p<100p%p%총 관측치의 합과 관측치의 합 이이 합의 잔차 를 나타냅니다 .(100p)%

보다 전통적인 중앙값이나 다른 Quantile이 아닌 위치 측정으로 사용하는 것이 합리적입니까? 한 가지 가능한 상황 인 가계 수입이 그 논문에 나와 있습니다.

소득이 중간 이하인 가구는 표본에서 총 소득의 절반을 수입하기 때문에 소득 수준의 합리적인 특성으로 중간 값을 사용할 수 있다는 것이이 정의로부터 도출 될 수있다. 다른 쪽 절반을받는 내측보다.

이 경우, 중간 가구 소득은 CZK 117,497 로 나타 났습니다 (즉, 가구의 절반이 이보다 더 많이 수입되고 절반은 위 소득)는 CZK의 중간 가구 소득이 133,930 (이 수치보다 높은 소득을 가진 가구는 총 수입). 이 비교는 반드시 가계 소득의 불균형 또는 심지어 불균일성을 반영하지는 않습니다. 가계 소득이 균일하게 분배 되더라도 중간은 여전히 ​​중간 값 위에있을 것입니다. 내가 그 정의를 이해하는 한, 모든 가구가 같은 수입을 받았을 경우 중간 값은 중간 값과 동일 할 것입니다.

따라서이 경우 중간을 선호하거나 적어도 보충 조치로 사용해야하는 특별한 이유가 있습니까? 중간 값과 중간 값의 비교가 정확히 무엇을 알려줍니까? 내가 지적한 이유 때문에 내측이 다른 중심 경향의 척도와 직접적으로 비교되는 것처럼 보이지는 않습니다 . 내측 / 탄 타가 널리 사용되거나 특히 유익한 것으로 보이는 다른 상황이 있습니까? 샘플 연구 논문과 함께 사용되는 실제 사례는 매우 환영받을 것이며, 유용하다고 입증 될 수있는 더 넓은 맥락에 대한 직관적 인 아이디어가 더 나을 것입니다.

총계와 소계는 의미가 있어야합니다 (돈과 관련이있는 것으로 보이며 "파이"가 분배되는 방식). 그러나 추가 행위조차도 특정 수량에 대해서만 의미가 있습니다. 대한 집중보다는 다양한 특성 등의 밀도 나 온도, 요약 어떤 종류의 물리적 의미가 없다. 모든화물 (무게 기준)의 50 %가 운송 될화물의 중량에 관심이있는 운송 분석가를 상상할 수 있기 때문에 광범위한 자산이 필요하지만 탄탈이 도움이 되기에는 충분하지 않은 것 같습니다. 그 무게 이상의 짐을 싣고 있었지만, 모든 뉴트의 전체 길이의 50 %가 그 길이 이상의 뉴트에 의해 기여되도록 뉴트의 길이에 관심이있는 생태학자는 상상할 수 없습니다.


3
@NickCox 내가 이해하는 한, 중간 값은 대략 절반 (가정 문제를 완전히 무시하고 있음)의 절반이 가구가 컷오프보다 많고 절반이 가구보다 적게받는 컷오프 값을 제공합니다. 중간 값은 다른 컷오프를 제공하여 컷오프 이상을받는 가구 의 총 수입 이 모든 수입의 50 %를 차지하고, 컷오프보다 적은 소득을받는 가구의 총 수입이 모든 소득의 50 %를 구성합니다.
Silverfish

2
모자 팁 : @ttnphns 가 내 이전 질문 에 대해 언급 한 후 이것에 대해 궁금해졌습니다 . 평균 (산술, 기하, 조화, 전력, 지수, 조합 등)은 "분석 평균"입니다. 중앙값, 분위수, 탄젠트는 "위치 평균"입니다.
Silverfish

4
감사; 나는 이것을 잘못 읽고 정정에 감사한다. "관찰의 합계"가 나에게 "관찰의 개수"에 너무 가깝기 때문에 "관찰의 합계"에서 "값의 합계"로 바꾸겠습니다. 아니면 변명 할 수도 있습니다. 로렌츠 곡선과 연결되어 있어야합니다. 측정 값은 관련 변수가 개념적으로 부가 적이거나 광범위 할 경우에만 유용합니다. 데이비드 콕스 경은 종종 변수가 광범위한 지 여부의 중요성을 강조합니다. 따라서 총 수입, 총 강우량, 총 대수 수입 또는 총 온도를 고려하지 않는 것이 실질적으로 합리적입니다.
Nick Cox

2
@NickCox 나는 확장 성이 훌륭한 포인트라고 생각합니다 (그리고 당신의 제안 된 rewording은 내 의견으로는 너무 향상되었을 것입니다). 예를 들어 운송되는화물의 중량이 컷오프로되어있어 모든화물의 50 % (무게 기준)가 해당 중량 이상의화물에 실리도록하는 것이 그럴듯 해 보입니다. 그러나 나는 모든 newt의 총 길이의 50 %가 그 길이 이상의 newt에 의해 기여되도록 newt의 길이에 관심이 있다고 상상할 수 없다.
Silverfish

1
실제로 동의하지만 원칙이 영향을받지 않는다고 생각합니다. "그러나 흥미 롭거나 유용하지 않을 것"에 대한 대답은 항상 수학적 또는 통계적 원리를 나타내는 것이 아닙니다. "그러지 마!"에 대한 범위도 있습니다.
Nick Cox

답변:


3

이것은 실제로 의견이지만 의견이 너무 깁니다. 그것은 "tantile"의 정의를 명확히하려고 노력하고 있습니다 ( p=0.5 경우 중앙값과 유사합니다). 하자 X 밀도 함수와 (편의상) 절대적 연속 확률 변수 일 수 f(x) . 우리는 기대 μ=EX 가 존재 한다고 가정 합니다. 즉, 적분 μ=xf(x)dx 수렴. 누적 분포 함수와 유사하게 "누적 기대 함수"(그러한 개념을 본 적이 없으며 공식 이름이 있습니까?)를

G(t)=txf(x)dx
그런 다음 "tantile"은방정식 G ( t * ) = μ / 2 의 해t 입니다.G(t)=μ/2

이 해석이 맞습니까? 이것이 의도 된 것입니까?

원래의 질문으로 돌아가려면, 소득 분배의 맥락에서, 탄탈은 총 소득의 절반이 그 소득을 가진 사람들을위한 것이고 총 수입의 절반은 그 소득을 가진 사람들을위한 소득의 가치입니다.

EDIT

G(t)

G(t)t

이 아이디어에 사용 된 다른 용어는 "부분 기대"입니다. 예를 들어 /math/1080530/the-partial-expectation-mathbbex-xk-for-an-alpha-stable-distributed-r을 참조 하여 Google을 사용 하십시오 !

X>0

Fk(x)=1EXk0xtkf(t)dt
which is "the kth-moment distribution", note that G(t)=μF1(t) so is basically the first-moment distribution. They refer to Champernowne (1974) who calls F1 the "income curve", and denotes the underlying cdf F by F0. In terms of the first moment distribution the Lorenz curve can be given as
{(u,L(u))}={(u,v):u=F(x),v=F1(x);x0}


1
Thanks for the addition - I'm going to have to do some reading up by the looks of it!
Silverfish
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.