평균 SD 또는 중간 MAD는 매우 괴상한 변수를 요약하면?


11

나는 치우친 데이터를 연구하고 있으므로 중앙 경향을 요약하기 위해 평균 대신 중간 값을 사용하고 있습니다. 분산을 측정하고 싶습니다 . 중심 경향을 요약하기 위해 평균 표준 편차±± ± 또는 중앙 사 분위수± 를 보고하는 사람들이 종종 있지만 중앙값 중앙값 절대 분산 (MAD)± 을보고해도 괜찮 습니까? 이 방법에 잠재적 인 문제가 있습니까?

이 방법은 특히 사 분위수가 큰 큰 테이블에서 낮은 사 분위수와 상위 사 분위수를보고하는 것보다 작고 직관적입니다.


3
평균, 하한 및 상한 사 분위수가 공동으로 데이터를 더 잘 설명한다고 생각합니다. 다른 기술 통계는 여기에서 찾을 수 있습니다 .

1
가능한 한 간결하고 싶습니다. 중앙값 + 2 사 분위수는 괜찮습니까?
Mulone

4
MAD는 일련의 데이터 분산 을 표현하기위한 훌륭한 통계입니다 . 사 분위수 범위보다 특이 치에 더 강합니다. 그러나 당신은 평균 무엇에 대해 생각 할 수 있습니다 청중 해야지 MAD 것 정말 평균과 어떻게 그것을 해석하는. 평균 SD 의 동일한 점근 적 또는 체비 쇼프 불평등과 같은 특성을 즐기지 않습니다 . 아마도 그러한 표현이 거의 사용되지 않는 이유 일 것입니다. ±±±
whuber

1
나는 항상 MAD가 평균 절대 편차에 대해 평균 제곱 오차 인 mse와 유사하다고 생각했습니다. 평균이 아닌 평균과의 절대 편차의 평균입니다. 내가 맞습니까 아니면 내가 갈까요?
Michael R. Chernick

2
가능한 경우 히스토그램을 보여주는 것은 매우 강력합니다.
bdeonovic

답변:


7

나는 평균 mad가 일반적으로 적절 하다고 생각하지 않습니다 . ±

데이터의 50 %가 중앙값보다 분수보다 낮고 데이터의 50 %가 중앙값보다 훨씬 크게 분포 된 분포를 쉽게 구축 할 수 있습니다 (예 : (4.9,4.9,4.9,4.9,5,1000000,1000000,100000) , 1000000). 5 0.10 표기법은 주위에 질량이 있고 (중간 값 + mad ~ = 5.10), 항상 그런 것은 아니며, 1000000에 가까운 질량이 있다는 것을 전혀 모릅니다.±

사 분위수 / 사 분위수는 여분의 수 (4.9,5.0,1000000.0)를 지불하여 분포에 대해 훨씬 더 나은 아이디어를 제공합니다. 왜도는 세 번째 순간이며, 왜도 분포를 직관적으로 시각화하기 위해 세 개의 숫자 / 차원이 필요하다는 것은 전적으로 우연의 일치라고 의심합니다.

즉, 그 자체로는 아무런 문제가 없습니다. 나는 여기서 직관과 가독성을 주장하고 있습니다. 자신이나 팀을 위해 그것을 사용한다면 미쳐 버리십시오. 그러나 나는 그것이 많은 사람들을 혼란스럽게 할 것이라고 생각합니다.


2
(+1) 세 번째 순간의 관점에서 왜도의 정의는 가벼운 꼬리가있는 분포에만 적용 할 수 있기 때문에 오늘날 가장 많이 받아 들여지지 않습니다. 왜도에 대한보다 현대적인 정의는 Quantile을 기반으로하며 일부는 여기 에서 찾을 수 있습니다 .

1
@amoeba입니까? MAD에 대한 Wikipedia 페이지는이 데이터를 Median (| Xi-Median (X) |)으로 정의하며,이 데이터는 0.1입니다.
Upper_Case

@Upper_Case 감사합니다. 나는 틀렸다 (약 5-5 = 0 용어를 잊었다). 나는 미래의 독자들을 혼동하지 않기 위해 위의 내 의견을 삭제합니다!
amoeba

4

MAD를 사용하면 기본 분포가 대칭이라고 가정 할 수 있습니다 (중위값 위와 중간 값 아래의 편차는 동일하게 간주 됨). 데이터가 왜곡되어있는 경우 이는 분명히 잘못된 것입니다. 데이터의 실제 변동성을 과대 평가하게됩니다.

다행스럽게도, 동일하고 견고하고 계산하기 쉽고 대칭성을 갖지 않는 광기에 대한 몇 가지 대안 중 하나를 선택할 수 있습니다.

Rousseeuw and Croux 1992를 살펴보십시오 . 이러한 개념은 여기 에 잘 설명되어 있으며 여기 에 구현되어 있습니다 . 이 두 추정치는 잘 발달 된 이론이있는 이른바 U- 통계 클래스의 구성원입니다.


1

"이 논문에서보다 정확한 비대칭 지수를 연구한다. 구체적으로, 좌우 분산의 사용이 제안되고 이들에 기초한 비대칭 지수가 소개된다. 몇 가지 예가 그 유용성을 입증한다. 분산을보다 정확하게 평가하는 문제 모집단 분포가 비대칭 일 때 데이터 집합의 평균 및 분산 (또는 표준 편차)은 데이터 분포에 대한 정확한 아이디어를 제공하지 않습니다. 평균, 제안 된 왼쪽 분산 (또는 왼쪽 표준 편차) 및 오른쪽 분산 (또는 오른쪽 표준 편차)은 데이터 집합을 더 정확하게 설명한다고 주장합니다. "

링크


3
당신은 논문의 초록을 인용하고 URL과 비슷한 것을 제공했습니다 (링크 수정의 자유를 얻었습니다). 그것은 실제로 우리가 찾고있는 답변의 유형이 아닙니다. 이 링크가 질문에 답변하는 데 도움이되는 이유에 대한 답변을 편집하고 자신의 의견을 추가해 보시기 바랍니다. 이 비대칭 지수가 평균 중심 경향 및 MAD와 어떻게 관련되어 있는지 설명하면 대답이 훨씬 향상됩니다.
MånsT
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.