평균 연령이 평균 연령보다 통계가 더 좋은 이유는 무엇입니까?


41

대체 텍스트

대체 텍스트

분명히 중앙값 은 연령대에있어 선택의 통계로 보인다.

산술 평균 이 왜 통계가 더 나쁜지 설명 할 수 없습니다 . 왜 그래야만하지?

이 사이트가 존재하는지 몰랐기 때문에 원래 여기에 게시 되었습니다 .


4
다른 사이트에서 이미 합리적인 답변을 한 것 같습니다.
셰인

1
@Shane : 그러나 다른 사이트는 다른 관점에서 다른 답변을 얻을 가능성이 있습니까?
whuber

답변:


42

내 의견으로는 통계는이 질문에 대한 좋은 대답을 제공하지 않습니다. 예를 들어, 평균은 사망률 연구에서 관련이있을 수 있지만 나이는 생각만큼 측정하기 쉽지 않습니다. 예를 들어 고령자, 문맹자 및 일부 제 3 세계 국가의 사람들은 나이를 5 또는 10의 배수로 반올림하는 경향이 있습니다.

중앙값은 평균보다 이러한 오류에 더 강합니다. 또한, 평균 연령은 20 – 40 세이지 만 사람들은 100 세 이상으로 살 수 있습니다 (현대 국가 인구의 증가하고 눈에 띄는 비율은 현재 100 명을 초과합니다). 그러한 나이의 사람들은 아주 젊은 사람들에 비해 평균보다 평균에 1.5 ~ 4 배의 영향을 미칩니다. 따라서 중앙값은 국가의 연령 분포에 관한 최신 통계이며 평균보다 사망률 및 평균 수명과 약간 더 독립적입니다.

마지막으로, 중앙값은 연령 분포 자체가 어떻게 보이는지에 대한 약간 더 나은 그림을 제공합니다. 예를 들어, 중앙값이 35 인 경우 인구의 절반이 35 세 이상이고 출생률에 대해 몇 가지를 유추 할 수 있습니다. 부모의 나이 등; 그러나 평균 이 35이면 35 세가 70 세에 대규모 인구 집단의 영향을 받거나 오래된 전쟁이나 전염병으로 인해 일부 연령대의 인구 격차에 영향을받을 수 있기 때문에 말할 수 없습니다.

따라서 통계적인 이유가 아닌 인구 통계 학적 이유로, 중간 값은 상대적으로 많은 인구의 연령을 요약하기위한 옴니버스 값의 역할에 더 적합합니다.


1
나는 당신이 "중앙값이 평균보다 그러한 오류에 더 강하다"는 것을 의미한다고 생각합니다. 그러나 귀하의 의견에 동의하며, 미국 인구 조사는 일반적으로 기본적으로 동일한 이유로 모든 연령대에 대한 중앙값을 공식 보고서 (연령이 아닌)로보고 있다고 생각합니다. 그러한 요점을 설명하기 위해 소득이 나이보다 더 좋은 예일 수도 있습니다.
Andy W

평균에 대한 중앙값의 선호도에 대한 값 설명을 위해 평균이 특이 치 / 비뚤어진 분포에 민감하다는 사실을 대체했습니다. 실제로 평균이 중간 값이 아니기 때문에 평균을 선호하지 않아야한다고 주장했습니다 (평균과 중앙값이 같을 때 대칭 분포에만 평균을 사용해야하는 사람과 유사 함).
Alexis

1
@Alexis 나는 당신의 비판을 따르지 않습니다. 좀 더 자세히 설명해 주시겠습니까? 결국,이 답변은 "사실"이상을 제공합니다. 그 의미에 대한 분석과 함께 이들 중 상당수가 포함되어 있습니다. 그리고 구체적으로 "가치 진술"이란 무엇입니까?
whuber

저의 관심사는 평균과 중앙값의 사실적인 특성입니다 (예 : 전자는 특이 치에 민감합니다. 즉, "이러한 연령의 사람들은 평균적으로 젊은이들에 비해 중앙값에 비해 1.5 ~ 4 배의 영향을 미칩니다.") 로 번역 될 값에 자신의 가치에 대한, 즉 "중간은 우리에게 연령 분포 그 자체의 모습을 약간 더 나은 그림을 제공합니다." 전자는 사실이며, 나중에는 그 사실에 대한 평가입니다. 내 관심사는 둘 사이의 전환에 관한 것이다. 더보기 : stats.stackexchange.com/questions/96371/…
Alexis

1
@Alexis이 질문은 일반적으로 평균이나 중간 값을 사용하는 것이 아니라 연령 분포 를 평가하는 유틸리티에 관한 것 입니다. 처음부터 내 대답은 만병 통치약이 없다는 것을 인정합니다. 평균은 특정 목적에 유용하고 관련 이 있습니다. 나는 당신이 저를 비난하는 죄를 저질렀다고 생각하지 않습니다. 그것은 "더 나은"의 모호한 적용입니다. 나는 이 맥락에서 평균과 평균이 어떻게 다른지 신중하게 규정했습니다 . 평균 중앙값과 관련하여 문제를 제기하는 것처럼 들리지만 , 이것이 할 수있는 곳이 아닙니다.
whuber

16

존은 자매 사이트에서 좋은 대답을했습니다.

그가 명시 적으로 언급하지 않은 한 가지 측면은 견고성입니다. 중앙 위치 의 척도로서 중앙값 이 평균보다 높은 고 장점 (50 %)을 갖는 반면 평균은 0 중 매우 낮습니다 (자세한 내용은 wikipedia 참조). ).

직관적으로, 그것은 개별적인 나쁜 관측이 중앙값을 기울이지 않고 평균을 위해 행한다는 것을 의미합니다.


9
분석은 전체 인구의 기술 통계량에 대한 문제가 아닙니다.
whuber

12

다음은 math.stackexchange에 처음 게시 된 답변입니다.

중앙값은 많은 사람들이 "평균"이라고 말할 때 실제로 염두에두고있는 것입니다. 중앙값을 해석하는 것이 더 쉽습니다. 인구의 절반이이 연령보다 높고 절반이 아래에 있습니다. 평균은 조금 더 미묘합니다.

사람들은 대칭을 찾고 때로는 없을 때 대칭을 부과합니다. 모집단의 연령 분포는 대칭이 아니므로 평균이 잘못 될 수 있습니다. 연령 분포는 피라미드와 같습니다. 많은 아이들이 아니라 많은 노인들. (적어도 그것이 정상 상태에있는 방법입니다. 미국에서는 2 차 세계 대전 후 베이비 붐 세대가 나이가 들어감에 따라이 분포를 왜곡했습니다. 일부 사람들은 붐 세대가 피라미드는 과거보다 넓습니다.)

비대칭 분포를 사용하면 대칭 통계이므로 중앙값을보고하는 것이 좋습니다. 샘플링 분포가 그렇지 않더라도 중앙값은 대칭입니다.


어떤 의미에서 중앙값은 "대칭"통계량입니까? 분포가 중앙값 (또는 평균에 대해)에 대해 대칭 적으로 분포되는 경향이있는 것은 아닙니다. 다른 의견에서 "중간이 모집단을 반으로 나눕니다"( 중앙 을 정의 함) 라고 쓴 것을 의미한다면 , 당신의 주장은 원형으로 들립니다.
whuber

7

도끼보다 도끼가 더 좋은 이유는 무엇입니까?

그것은 당신의 질문과 비슷합니다. 그들은 단지 다른 것을 의미하고 행합니다. 중간 값에 대해 이야기하고 있다면, 그들이 전달하고자하는 이야기, 그들이 데이터에 적용하려고하는 모델은 수단이있는 것과 다릅니다.


4

구체적인 예를 들어 콩고 (DRC)와 일본의 평균 연령을 고려하십시오. 하나는 내전으로 황폐화되고 다른 하나는 고령화 인구로 잘 발달되어 있습니다. 사과와 사과의 비교는 그 의미가별로 흥미롭지 않습니다. 다른 한편으로, 중앙값은 정의상 우리가 반 이상, 반 이하를 가지기 때문에 중심 경향의 척도로서 유익 할 수 있습니다. 인구 피라미드 에 관한 위키피디아 기사 가 밝아 질 수 있습니다 (청소년 불황, 고령화 인구에 관한 섹션 참조).


3

미국의 공공 보건 데이터 저장소는 개인 정보 보호를 위해 데이터의 의도적 맹검 및 마스킹에 관한 HIPAA 규정의 영향으로 인해 5 년 단위로 AGE 형식으로 전환하고 있습니다.

과거 (HIPAA 이전)에 있었던 이러한 도전에 대해 생년월일과 사망일 사이의 차이에 기초한 상당히 규모의 측정 데이터 요소를 고려할 때, AGE를 척도 변수로 다시 고려해야 할 수도 있습니다. AGE를 비모수 적 방식으로 서수 수준으로 측정하는 모델을 선호하여 공중 보건 데이터 세트에서 파라 메트릭 방식으로 설명됩니다. 나는 이것이 생명 의학 정보학 공동체 내의 많은 파벌들에게 "정상적인"것처럼 보일지 모른다는 것을 알고 있지만,이 생각은 위의 주석에서 설명 된 것처럼 "해석"의 관점에서 약간의 장점을 가질 수있다.

비모수 적 접근법에 사용할 수있는 모든 분석 능력은 어떻습니까? 그렇습니다. 우리 모두가 거의 보편적으로 GLM (general linear model) 기술을 AGE가하는 방식으로 작동하는 분포에서 우리에게 제시되는 변수에 적용하려고 시도하는 것은 사실입니다.

동시에 분포에 존재하는 다차원 중심 및 하위 그룹 중심에 대한 다차원 상호 작용 효과에 의해 분포의 형태와 그 형태가 결정되는 방식을 고려해야합니다. 이 매우 복잡한 데이터 세트로 무엇을해야합니까?

데이터 요소가 "모델의 가정"을 충족시키지 못하면, 우리는 점진적으로 스캔합니다 (나는 다운하지 않고 말했다. 우리는 동등한 기회의 방법 고용주 여야한다. 가정 테스트를 "실패하지 않는"모델을 찾는 다른 가능한 모델 중 하나.

공중 보건 데이터 세트의 현재 형식에서, 우리는 5 년 단위로 AGE를 처리하기위한보다 표준적인 모델을 제시하기 위해 (데이터 시각화 커뮤니티로서) 실제로 필요합니다. AGE (새로운 5YI 형식으로 제공)의 데이터 시각화에 대한 투표는 히스토그램과 상자 및 수염 그림을 사용하는 것입니다. 예, 이것은 중간 값을 의미합니다. (말장난은 없습니다!)

때때로 그림은 실제로 천 단어의 가치가 있으며 초록은 천 단어의 요약입니다. 상자와 수염 그림은 분포의 "모양"을 거의 상징적 인 수준의 해상도에서 히스토그램의 의미있는 상징적 표현으로 보여줍니다. "나란히"상자와 수염 모양을 75에서 50까지 (중앙)에서 25 개까지 낮은 ntile까지 시각적으로 비교할 수있는 5 년 연령 단위의 분포를 비교하면 AGE를 비교하기위한 우아한 "유니버설 표준"이됩니다. 세계. 표 형식 디스플레이의 텍스트 메커니즘을 통해 데이터 표현의 스릴을 계속 즐기는 사람들에게는 "스파크 라인"에서 애니메이션 시각적 그래픽 요소로 사용될 때 "줄기 및 잎"다이어그램이 유용 할 수 있습니다.

나이가 왔습니다. 현재 사용할 수있는 더 강력한 계산 알고리즘을 사용하여 추가로 탐색해야합니다.


1
잘 작성된 게시물이지만 원래 질문과 관련이없는 것 같습니다.
Andy W

나는 그것이 간접적이지만 적절하게 문제의 명백한 의도 인 @Andy를 해결한다고 생각합니다. 결함은 질문 자체에 있으며, 평균이 평균보다 "나쁜"의미를 지정하지 않기 때문에 모호합니다. 따라서 좋은 답은이를 탐구하고 단일 통계로 연령 분포를 요약하는 목적을 고려해야합니다. 여기서 이것은 "나이"가 무엇을 의미하고 연령 분포를 얼마나 적절하게 비교할 수 있는지에 대한 논의로 자연스럽게 이어진다.
whuber

3

나는 연령 분포의 평균보다 평균을 선택 해야하는 좋은 이유가 있다고 생각하지 않습니다. 보고 된 데이터를 비교할 때 실용성이 있습니다.

많은 국가에서 최고 밴드가 개방 된 상태에서 5 년 간격으로 인구를보고합니다. 이로 인해 특히 가장 어린 간격 (유아 사망률에 영향을 받음), 상위 "간격"(80+ "간격"의 평균은 얼마입니까?) 및 가장 가까운 간격 ( 각 간격의 평균은 보통 중간보다 낮습니다.

중간 간격 내에서 보간하여 중앙값을 추정하는 것이 훨씬 쉽습니다. 종종 해당 간격의 평평한 또는 사다리꼴 연령 분포를 가정하여 근사화합니다 (많은 국가의 사망률이 중간 연령에 비해 상대적으로 낮으므로 이보다 더 합리적인 근사치가됩니다) 젊은이 또는 노인을위한 것입니다).


3

유용한 질문에 대한 원래의 질문은 질문 뒤에있는 질문을 알아야합니다. 다시 말해, 왜 다른 나라의 연령 분포를 비교하는 일종의 요약 통계를 원하십니까? 중간 값은 일부 질문에 가장 유용 할 수 있습니다. 평균은 다른 사람에게 가장 유용 할 수 있습니다. 그리고 "특정 연령보다 높거나 낮은 비율"이 가장 유용한 통계가 될 수있는 질문이있을 것입니다.


2

여기에 좋은 답변이 있지만 2 센트를 추가하겠습니다. 나는 혈액량, 제거율, 약물 효과의 기본 수준, 최대 약물 효과 및 그와 같은 매개 변수를 다루는 약동학에서 일합니다.

더하기 또는 빼기 값을 취할 수있는 변수와 양수 만 가능한 값을 구별합니다. 더하기 또는 빼기 값을 취할 수있는 변수의 예는 약물 효과 일 수 있으며, 이는 양수, 제로 또는 음수 일 수 있습니다. 현실적으로 만 긍정적일 수있는 변수의 예는 혈액량 또는 약물 제거율입니다.

우리는 일반적으로 정규 또는 대수 정규 분포, 임의의 값을 가진 정규 분포 및 유일하게 양성인 분포를 사용하여 이러한 것들을 모델링합니다. 로그 정규수는 정규 분포 된 수의 거듭 제곱으로 취해진 숫자 E이므로 양수 만 가능합니다.

정규 분포 변수의 경우 중앙값, 평균 및 모드는 같은 수이므로 어떤 것을 사용하든 상관 없습니다. 그러나 로그 정규 분포 변수의 경우 평균이 중앙값과 모드보다 크므로 실제로는 유용하지 않습니다. 실제로, 중앙값은 기본 법선의 평균이있는 곳이므로 훨씬 더 매력적인 척도입니다.

나이 (아마도)는 음수가 될 수 없으므로 대수 정규 분포는 아마도 정규 분포보다 더 나은 설명 일 수 있으므로 중앙값 (E는 기본 정규 평균에 해당)이 더 유용합니다.


5
연령 분포는 확실히 로그 로그가 아닙니다.
Rob Hyndman

1
나는 당신이 나이가 항상 긍정적이라는 사실에서 로그 정규 분포를 유추 할 수 있다고 생각하지 않습니다. 감마와와 이블 분포도 항상 긍정적이므로 왜 그 분포를 선택하지 않습니까?
니코

@Rob : @nico : 네 말이 맞아 확신합니다. 예를 잘 선택하지 못했습니다. 일반적으로 우리는 부피 및 클리어런스와 같은 약동학 적 파라미터를 모델링합니다.
Mike Dunlavey

2

나는 중앙값이 표준 편차와 범위 및 평균으로 사용되어야한다고 배웠습니다. 나이에 관해 이야기 할 때, 범위는 스프레드를 표현하는 데 더 적절한 방법이며 대부분 이해하기 쉽다고 생각합니다. 예를 들어 연구 모집단의 평균 연령은 53 세 (SD 5.4)이거나 중간 연령은 48 세 (23-77 세)입니다. 따라서 평균보다는 평균을 사용하는 것이 좋습니다. 그러나 나는 통계와 통계 전문가가 범위와 함께 평균을 사용하는 것에 대해 말한 것에 매우 관심이 있습니까? 나는 과학 논문에서 이것을 꽤 많이 본다.


CV에 오신 것을 환영합니다, Susanne. 답변을 얻기 위해 이것을 게시 한 경우 삭제 한 후 새 질문으로 다시 게시하십시오. 이 사이트 사용 방법에 대한 지침은 도움말 센터 에서 확인할 수 있습니다 .
whuber

1

math.stackexchange에 대한 John의 답변은 다음과 같이 볼 수 있습니다.

분포가 치우친 경우 중앙값이 평균보다 더 나은 요약 통계 일 수 있습니다.

그는 성인보다 영아가 더 많다고 말할 때 본질적으로 연령 분포가 치우친 분포라고 제안합니다.


사실 저는 오늘날 많은 국가의 스큐가 꼬마가 아니라 노인을 향한 것이라고 생각합니다.
JM은

어쩌면 다른 방법으로 기울어졌지만 일반적인 요점이 있습니다. 치우친 분포의 경우 중앙값이 평균보다 더 의미가있을 수 있습니다.

방금 그 점을 강조하기 위해 math.stackexchange에 대한 답변을 업데이트했습니다. 사람들은 대칭을 찾고 대칭이 없으면 대칭을 잘못 적용 할 수 있습니다. 중앙값을보고하면 분포가 대칭이 아니더라도 대칭 인 답변을 제공합니다 (중앙값은 모집단을 반으로 나눕니다).
John D. Cook

이 대답은 항상 다소 고의적 인 것 같습니다. 분포가 왜곡되지 않은 경우 (즉, 대칭) 평균 중앙값과 같으므로 분포가 왜곡 될 때 중앙값이 "더 나은"상태라고 말하면 "사용 만" 중앙값. "
Alexis

1

평균 연령은 데이터 세트의 특이 치에 영향을 받기를 원하지만 평균 연령은 그렇지 않습니다. 백신 접종을받은 환자의 데이터 세트를 예로 들어 보자 : 1,2,3,4,4,5,6,6,6,78 년 이 평균 연령은 이상치 78의 영향을받습니다. 중앙값이 치우친 분포의 데이터 세트를 처리하는 동안 최고입니다.


User28에 대한 응답을 참조하십시오.
Alexis

0

확실히 인구 통계 학적 분석의 경우, 중간 값만으로 잘못 표시 될 수있는 특이 치나 성장 영역을 찾고 있다면 평균과 중간 값이 특히 서로 결합하여 가치가 있다고 생각합니다. 퇴직자 수가 많은 지역이나 출산율이 폭발 한 지역의 경우 중간 값만으로는 전체 그림을 볼 수 없으며 그에 비해 평균이 매우 유용 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.