- Wolfram Alpha 를 보면
- 또는이 위키 백과 페이지 중간 연령별 국가 목록
분명히 중앙값 은 연령대에있어 선택의 통계로 보인다.
산술 평균 이 왜 통계가 더 나쁜지 설명 할 수 없습니다 . 왜 그래야만하지?
분명히 중앙값 은 연령대에있어 선택의 통계로 보인다.
산술 평균 이 왜 통계가 더 나쁜지 설명 할 수 없습니다 . 왜 그래야만하지?
답변:
내 의견으로는 통계는이 질문에 대한 좋은 대답을 제공하지 않습니다. 예를 들어, 평균은 사망률 연구에서 관련이있을 수 있지만 나이는 생각만큼 측정하기 쉽지 않습니다. 예를 들어 고령자, 문맹자 및 일부 제 3 세계 국가의 사람들은 나이를 5 또는 10의 배수로 반올림하는 경향이 있습니다.
중앙값은 평균보다 이러한 오류에 더 강합니다. 또한, 평균 연령은 20 – 40 세이지 만 사람들은 100 세 이상으로 살 수 있습니다 (현대 국가 인구의 증가하고 눈에 띄는 비율은 현재 100 명을 초과합니다). 그러한 나이의 사람들은 아주 젊은 사람들에 비해 평균보다 평균에 1.5 ~ 4 배의 영향을 미칩니다. 따라서 중앙값은 국가의 연령 분포에 관한 최신 통계이며 평균보다 사망률 및 평균 수명과 약간 더 독립적입니다.
마지막으로, 중앙값은 연령 분포 자체가 어떻게 보이는지에 대한 약간 더 나은 그림을 제공합니다. 예를 들어, 중앙값이 35 인 경우 인구의 절반이 35 세 이상이고 출생률에 대해 몇 가지를 유추 할 수 있습니다. 부모의 나이 등; 그러나 평균 이 35이면 35 세가 70 세에 대규모 인구 집단의 영향을 받거나 오래된 전쟁이나 전염병으로 인해 일부 연령대의 인구 격차에 영향을받을 수 있기 때문에 말할 수 없습니다.
따라서 통계적인 이유가 아닌 인구 통계 학적 이유로, 중간 값은 상대적으로 많은 인구의 연령을 요약하기위한 옴니버스 값의 역할에 더 적합합니다.
다음은 math.stackexchange에 처음 게시 된 답변입니다.
중앙값은 많은 사람들이 "평균"이라고 말할 때 실제로 염두에두고있는 것입니다. 중앙값을 해석하는 것이 더 쉽습니다. 인구의 절반이이 연령보다 높고 절반이 아래에 있습니다. 평균은 조금 더 미묘합니다.
사람들은 대칭을 찾고 때로는 없을 때 대칭을 부과합니다. 모집단의 연령 분포는 대칭이 아니므로 평균이 잘못 될 수 있습니다. 연령 분포는 피라미드와 같습니다. 많은 아이들이 아니라 많은 노인들. (적어도 그것이 정상 상태에있는 방법입니다. 미국에서는 2 차 세계 대전 후 베이비 붐 세대가 나이가 들어감에 따라이 분포를 왜곡했습니다. 일부 사람들은 붐 세대가 피라미드는 과거보다 넓습니다.)
비대칭 분포를 사용하면 대칭 통계이므로 중앙값을보고하는 것이 좋습니다. 샘플링 분포가 그렇지 않더라도 중앙값은 대칭입니다.
미국의 공공 보건 데이터 저장소는 개인 정보 보호를 위해 데이터의 의도적 맹검 및 마스킹에 관한 HIPAA 규정의 영향으로 인해 5 년 단위로 AGE 형식으로 전환하고 있습니다.
과거 (HIPAA 이전)에 있었던 이러한 도전에 대해 생년월일과 사망일 사이의 차이에 기초한 상당히 규모의 측정 데이터 요소를 고려할 때, AGE를 척도 변수로 다시 고려해야 할 수도 있습니다. AGE를 비모수 적 방식으로 서수 수준으로 측정하는 모델을 선호하여 공중 보건 데이터 세트에서 파라 메트릭 방식으로 설명됩니다. 나는 이것이 생명 의학 정보학 공동체 내의 많은 파벌들에게 "정상적인"것처럼 보일지 모른다는 것을 알고 있지만,이 생각은 위의 주석에서 설명 된 것처럼 "해석"의 관점에서 약간의 장점을 가질 수있다.
비모수 적 접근법에 사용할 수있는 모든 분석 능력은 어떻습니까? 그렇습니다. 우리 모두가 거의 보편적으로 GLM (general linear model) 기술을 AGE가하는 방식으로 작동하는 분포에서 우리에게 제시되는 변수에 적용하려고 시도하는 것은 사실입니다.
동시에 분포에 존재하는 다차원 중심 및 하위 그룹 중심에 대한 다차원 상호 작용 효과에 의해 분포의 형태와 그 형태가 결정되는 방식을 고려해야합니다. 이 매우 복잡한 데이터 세트로 무엇을해야합니까?
데이터 요소가 "모델의 가정"을 충족시키지 못하면, 우리는 점진적으로 스캔합니다 (나는 다운하지 않고 말했다. 우리는 동등한 기회의 방법 고용주 여야한다. 가정 테스트를 "실패하지 않는"모델을 찾는 다른 가능한 모델 중 하나.
공중 보건 데이터 세트의 현재 형식에서, 우리는 5 년 단위로 AGE를 처리하기위한보다 표준적인 모델을 제시하기 위해 (데이터 시각화 커뮤니티로서) 실제로 필요합니다. AGE (새로운 5YI 형식으로 제공)의 데이터 시각화에 대한 투표는 히스토그램과 상자 및 수염 그림을 사용하는 것입니다. 예, 이것은 중간 값을 의미합니다. (말장난은 없습니다!)
때때로 그림은 실제로 천 단어의 가치가 있으며 초록은 천 단어의 요약입니다. 상자와 수염 그림은 분포의 "모양"을 거의 상징적 인 수준의 해상도에서 히스토그램의 의미있는 상징적 표현으로 보여줍니다. "나란히"상자와 수염 모양을 75에서 50까지 (중앙)에서 25 개까지 낮은 ntile까지 시각적으로 비교할 수있는 5 년 연령 단위의 분포를 비교하면 AGE를 비교하기위한 우아한 "유니버설 표준"이됩니다. 세계. 표 형식 디스플레이의 텍스트 메커니즘을 통해 데이터 표현의 스릴을 계속 즐기는 사람들에게는 "스파크 라인"에서 애니메이션 시각적 그래픽 요소로 사용될 때 "줄기 및 잎"다이어그램이 유용 할 수 있습니다.
나이가 왔습니다. 현재 사용할 수있는 더 강력한 계산 알고리즘을 사용하여 추가로 탐색해야합니다.
나는 연령 분포의 평균보다 평균을 선택 해야하는 좋은 이유가 있다고 생각하지 않습니다. 보고 된 데이터를 비교할 때 실용성이 있습니다.
많은 국가에서 최고 밴드가 개방 된 상태에서 5 년 간격으로 인구를보고합니다. 이로 인해 특히 가장 어린 간격 (유아 사망률에 영향을 받음), 상위 "간격"(80+ "간격"의 평균은 얼마입니까?) 및 가장 가까운 간격 ( 각 간격의 평균은 보통 중간보다 낮습니다.
중간 간격 내에서 보간하여 중앙값을 추정하는 것이 훨씬 쉽습니다. 종종 해당 간격의 평평한 또는 사다리꼴 연령 분포를 가정하여 근사화합니다 (많은 국가의 사망률이 중간 연령에 비해 상대적으로 낮으므로 이보다 더 합리적인 근사치가됩니다) 젊은이 또는 노인을위한 것입니다).
여기에 좋은 답변이 있지만 2 센트를 추가하겠습니다. 나는 혈액량, 제거율, 약물 효과의 기본 수준, 최대 약물 효과 및 그와 같은 매개 변수를 다루는 약동학에서 일합니다.
더하기 또는 빼기 값을 취할 수있는 변수와 양수 만 가능한 값을 구별합니다. 더하기 또는 빼기 값을 취할 수있는 변수의 예는 약물 효과 일 수 있으며, 이는 양수, 제로 또는 음수 일 수 있습니다. 현실적으로 만 긍정적일 수있는 변수의 예는 혈액량 또는 약물 제거율입니다.
우리는 일반적으로 정규 또는 대수 정규 분포, 임의의 값을 가진 정규 분포 및 유일하게 양성인 분포를 사용하여 이러한 것들을 모델링합니다. 로그 정규수는 정규 분포 된 수의 거듭 제곱으로 취해진 숫자 E이므로 양수 만 가능합니다.
정규 분포 변수의 경우 중앙값, 평균 및 모드는 같은 수이므로 어떤 것을 사용하든 상관 없습니다. 그러나 로그 정규 분포 변수의 경우 평균이 중앙값과 모드보다 크므로 실제로는 유용하지 않습니다. 실제로, 중앙값은 기본 법선의 평균이있는 곳이므로 훨씬 더 매력적인 척도입니다.
나이 (아마도)는 음수가 될 수 없으므로 대수 정규 분포는 아마도 정규 분포보다 더 나은 설명 일 수 있으므로 중앙값 (E는 기본 정규 평균에 해당)이 더 유용합니다.
나는 중앙값이 표준 편차와 범위 및 평균으로 사용되어야한다고 배웠습니다. 나이에 관해 이야기 할 때, 범위는 스프레드를 표현하는 데 더 적절한 방법이며 대부분 이해하기 쉽다고 생각합니다. 예를 들어 연구 모집단의 평균 연령은 53 세 (SD 5.4)이거나 중간 연령은 48 세 (23-77 세)입니다. 따라서 평균보다는 평균을 사용하는 것이 좋습니다. 그러나 나는 통계와 통계 전문가가 범위와 함께 평균을 사용하는 것에 대해 말한 것에 매우 관심이 있습니까? 나는 과학 논문에서 이것을 꽤 많이 본다.
math.stackexchange에 대한 John의 답변은 다음과 같이 볼 수 있습니다.
분포가 치우친 경우 중앙값이 평균보다 더 나은 요약 통계 일 수 있습니다.
그는 성인보다 영아가 더 많다고 말할 때 본질적으로 연령 분포가 치우친 분포라고 제안합니다.