변동 계수 – IQR / 중앙 또는 대안과 같은 강력한 비모수 적 측정?


12

주어진 데이터 세트에 대해 스프레드는 종종 표준 편차 또는 IQR (사 분위수 범위)로 계산됩니다.

a standard deviation는 정규화되고 (z- 점수 등) 두 개의 다른 모집단의 분포를 비교하는 데 사용할 수 있지만, 두 개의 다른 모집단의 표본은 두 개의 다른 척도에서 값을 가질 수 있기 때문에 IQR의 경우에는 해당되지 않습니다.

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

내가 추구하는 것은 다른 모집단 내의 변동을 비교하는 데 사용할 수있는 강력한 (비모수 적) 측정입니다.

선택 1 : IQR / Median-이것은 변동 계수 , 즉 와 유사합니다 .σμ

선택 2 : Range / IQR

질문 : 모집단 간의 변동을 비교하는 데 더 의미있는 방법은 무엇입니까? 그리고 그것이 선택 1이라면, 선택 2는 무엇인가 / 의미있는 데 유용합니까, 아니면 근본적으로 결함이있는 측정입니까?


매우 유용한 토론에 감사드립니다. 몇 가지 유용한 후속 조치-사 분위수에 대한 다른 정의와 IQR (John), 실제로 표준화되지 않은 표준 편차 (Harvey) 및 QQ 플롯을 두 분포 (피터)를 비교하는 도구로 사용합니다. (3 개의 답변 모두에 +1!)
Assad Ebrahim

답변:


13

문제는 표준 편차 (SD)가 어떻게 든 정규화되었으므로 두 다른 모집단의 변동성을 비교하는 데 사용될 수 있음을 암시합니다 . 별로. Peter와 John이 말했듯이이 정규화는 SD / Mean과 같은 변동 계수 (CV)를 계산할 때와 같이 수행됩니다 . SD는 원본 데이터와 동일한 단위로되어 있습니다. 반대로 CV는 단위가없는 비율입니다.

선택 1 (IQR / 중앙값)은 CV와 유사합니다. CV와 마찬가지로 데이터가 비율 데이터 인 경우에만 의미가 있습니다. 이것은 0이 실제로 0임을 의미합니다. 가중치 0은 가중치가 없습니다. 길이가 0이면 길이가 없습니다. 반대의 예로서, 0도 온도 (C 또는 F)가 온도가 없다는 것을 의미하지 않기 때문에 C 또는 F의 온도에는 의미가 없습니다. C 또는 F 스케일을 사용하는 것만으로 전환하면 CV 또는 IQR / 중앙 비율에 다른 값이 주어 지므로 두 비율 모두 의미가 없습니다.

Peter와 John에게 두 번째 아이디어 (Range / IQR)가 특이 치에 대해 강력하지 않을 것이므로 유용하지 않을 것이라고 동의합니다.


2
하비-감사합니다-당신 말이 맞아요, SD 는 전혀 정규화되지 않았습니다 ... 나는 z-scores값을 표준화하고 평균 및 표준 편차 측면에서 분포 내에서 그들의 위치를 ​​정규화 한다는 개념을 혼동하고있었습니다. 변동성에 따라 제품 그룹의 순위를 정할 수 있다는 것입니다. 베드로와 요한이 모두 매우 도움이되었지만 당신의 생각이 나에게 개념적 혼합을 알려 주었기 때문에 당신의 대답을 올바른 것으로 선택하십시오. 선택 1에 대한 좋은 지적은 중간 0 근처에서 제한적으로 사용된다는 것입니다. 다행히도, 제 문제는 이것에 대해 걱정할 필요가 없습니다.
Assad Ebrahim

나는 이것을 종이에 사용하고 싶습니다. 참조 된 좋은 장소가 있습니까 (책 / 어딘가 동료 검토)?
Ben Bolker

15

최소값과 최대 값이 사용하기에 매우 좋은 통계가 아니라는 점을 인식하는 것이 중요합니다 (즉, 표본마다 크게 변동될 수 있으며 평균이 중앙 한계 정리로 인해 발생할 수 있으므로 정규 분포를 따르지 않음). . 결과적 으로이 범위는 이 정확한 샘플 의 범위를 나타내는 것 이외의 다른 경우에는 거의 적합하지 않습니다 . 변동성을 나타내는 단순한 비모수 통계량의 경우 사 분위수 범위가 훨씬 좋습니다. 그러나 IQR / 중앙값과 변동 계수 사이의 비유를 보았지만 이것이 최선의 선택이라고 생각하지 않습니다.

중앙값 ( MADM ) 의 중앙값 절대 편차 를 조사 할 수 있습니다 . 즉, 변동 계수에 대한 비모수 적 비유가 IQR / median이 아닌 MADM / median 일 것입니다.

MADM=median(|ximedian(x)|)

1
의 흥미로운 선택 MADM/median, 본질적으로 중간 값과의 중간 차이. 이 Choice 3이라고합시다. Choice 1의 평가에 동의하십시오. 감사합니다. '더 나은'을 제안 할 때, Choice 2와 Choice 3을 비교하여 어떤 것이 더 나은지 알 수있는 속성은 무엇입니까?
Assad Ebrahim

1
사용할 속성은 측정 항목의 목표가 무엇인지에 따라 다릅니다. 그러나 나는 그것이 CoV에 대한 더 나은 비유 라는 것을 의미했습니다 . NB는 3 분위가 중간 값보다 높은 데이터의 중앙값이고 1 위 q는 아래의 중간 값이므로 장기적으로 IQR / 2는 MADM과 같습니다 (nb, 동일하지 않을 수 있음) 주어진 샘플에서). IQR은 팝의 진정한 가치와는 거리가 멀지 만, 그 의미와 그 의미가 무엇인지 잘 모르겠습니다. 실수. IQR / 2는 MADM의 SE와 동일해야합니다.
gung-모니 티 복원

설명해 주셔서 감사합니다. Q3과 Q1의 중간 해석에 대한 좋은 지적. MADM/median함께 시도해 보겠습니다 IQR/median. 나란히 비교하면 흥미로울 수 있습니다. (흥미로운 제안에 +1)
Assad Ebrahim

6

"선택 1"은 특이 치의 영향을 줄이는 일반적인 목적으로 비모수를 사용하는 경우 원하는 것입니다. 꼬리에 일반적으로 극단적 인 값을 갖는 부작용이있는 기울어 짐으로 인해 사용하더라도, 그것은 이상치 일 수 있습니다. "선택 2"는 특이 치나 극단적 인 값의 영향을 크게받는 반면 첫 번째 방정식의 구성 요소는 상대적으로 견고합니다.

[이것은 어떤 종류의 IQR을 선택 하느냐에 따라 조금씩 달라질 것입니다. (quantile에 대한 R 도움말 참조)]


당신 맞아요, 나는 이것이이다 "라고해야 와 똑같이 ! (질문에 지금은 고정) 변동 계수의 정의 ...에
아사드 에브라힘

어떤 종류의 IQR을 선택했는지 에 대한 의견에 감사드립니다 . Excel의 기본 제공 quartile( )기능을 사용하고 IQR := Q3 - Q1있습니다. 내 수치는 1 년에 걸친 일련의 주간 측정에서 나옵니다. 측정 값은 산업 성능 측정 값이며 연속 분포를 기준으로합니다. 다른 모집단은 다른 제품 그룹입니다. 이 상황에서 다른 정의가 실제로 크게 다를 것이라고 생각하지 않습니까?
Assad Ebrahim

6

나는 거의 항상 임의 변수에 대한 임의의 원점을 가지고 있기 때문에 CV와 같은 측정 값을 계산하지 않는 것을 선호합니다. 강력한 분산 측정의 선택과 관련하여 Gini의 평균 차이를이기는 것은 어렵습니다. 이는 두 관측치 간의 차이의 모든 가능한 절대 값의 평균입니다. 효율적인 계산을 위해서는 예를 들어 R rms패키지 GiniMd함수를 참조하십시오 . 정규성 하에서, Gini의 평균 차이는 분산 추정을위한 SD만큼 0.98입니다.


3

@John과 마찬가지로 변동 계수의 정의를 들어 본 적이 없습니다. 나는 그것을 사용하면 사람들을 혼란스럽게 할 것이라고 부르지 않을 것입니다.

"가장 유용한 것은 무엇입니까?" 당신이 그것을 사용하려는 것에 달려 있습니다. 확실히 당신이 원하는 것이 확실하다면 선택 1은 이상치에 더 강력합니다. 그러나 두 분포를 비교하는 목적은 무엇입니까? 무엇을하려고합니까?

한 가지 대안은 두 측정 값을 표준화 한 다음 요약을 보는 것입니다.

다른 하나는 QQ 플롯입니다.

다른 많은 것들도 있습니다.


좋은 점은 - 말했다한다 유사 (필자는 보정을했습니다) 변동 계수에.
Assad Ebrahim

내 수치는 1 년에 걸친 일련의 주간 측정에서 나옵니다. 측정 값은 산업 성능 측정 값이며 연속 분포를 기준으로합니다. 인구가 다르면 제품 그룹이 다르며 약 50 개의 제품 그룹이 있습니다. 내가하려는 것은 서로 다른 제품 그룹 간의 고유 한 가변성을 비교할 수 있다는 것입니다. 특히 변동성 순서로 제품 그룹의 순위를 매길 수 있기를 원합니다.
Assad Ebrahim

'두 측정을 표준화 한 다음 요약을보십시오'는 무슨 뜻입니까? Choice 1이 표준화하고 있다고 생각했습니다 ...!
Assad Ebrahim

2

이 논문 은 변동 계수에 대한 두 가지 강력한 대안을 제시한다. 하나는 사 분위수 범위를 중앙값으로 나눈 값입니다.

IQR / 중앙값 = (Q3-Q1) / 중앙값

다른 하나는 중간 절대 편차를 중앙값으로 나눈 값입니다.

MAD / 중앙

그들은 그것들을 비교하고 일반적으로 두 번째는 약간 덜 가변적이며 아마도 대부분의 응용에 더 좋다고 결론지었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.