데이터가 왜곡 될 때 평균을 사용해야합니까?


14

종종 입문 적용된 통계 텍스트는 평균이 평균과 구별됩니다 (종종 설명 통계의 맥락에서 평균이 평균, 중간 값 및 모드를 사용하여 중심 경향의 요약을 유발 함). 평균이 샘플 데이터 및 / 또는 인구 분포를 왜곡하여 데이터가 대칭이 아닌 경우 중앙값이 선호된다는 주장의 근거로 사용됩니다.

예를 들면 다음과 같습니다.

주어진 데이터 세트에 대한 중앙 경향의 최상의 척도는 종종 값이 분포되는 방식에 따라 다릅니다. 데이터가 대칭이 아닌 경우 중앙값은 종종 중앙 경향의 최고 척도입니다. 평균은 극단적 인 관측 값에 민감하기 때문에 외부 데이터 값의 방향으로 당겨져 결과적으로 지나치게 팽창하거나 지나치게 수축 될 수 있습니다. "
—Pagano and Gauvreau, (2000) Biostatistics의 원리 , 2nd ed. (P & G가 손이었다 BTW 그들을 지목하지 자체 ).

저자는 "중앙 경향"을 다음과 같이 정의합니다. "데이터 집합의 가장 일반적으로 조사되는 특성은 중심이거나 관측치가 군집화되는 지점입니다."

이 말의보다 적게보다는 솔직한 방법으로 나를 친다 중간 기간 만 사용 데이터 만 / 분포가 대칭 때 평균을 사용하여이 중간 같을 때 평균을 사용하는 경우에만 말과 같은 것 때문에. 편집 : whuber는 중앙 경향의 강력한 척도를 중간 값과 접목하고 있다고 지적합니다. 따라서 산술 평균의 특정 프레임 대 입문 적용 통계의 중앙값에 대해 논의하고 있음을 명심하는 것이 중요합니다 (모드를 제외하고 다른 중심 경향의 측정 기준은 동기 부여되지 않음).

평균의 평균이 중간 값의 행동에서 얼마나 많은지를 판단하여 평균의 유용성을 판단하는 대신, 두 가지 중심성의 척도로서 단순히 이해하지 않아야합니까? 즉, 왜도에 민감하다는 것은 평균의 특징입니다. "중간 값은 왜도에 크게 영향을받지 않기 때문에 평균이 좋지 않기 때문에 평균과 같을 때만 사용하십시오."

(이 모드는 현명 하게이 질문에 관여하지 않습니다.)


3
개인적으로 저는 평균 및 중앙값을 모두 포함하여 독자들에게 중심 경향에 대한 정보뿐만 아니라 데이터가 어떻게 왜곡되었는지에 대한 정보를 제공합니다.
bdeonovic

1
일부 맥락과 설명은이 질문을 개선 할 것입니다. (1) 이 (가설적인) 서문은 어떤 맥락 에서 평균이 선호되어야하며 어떤 목적으로 사용한다고 주장합니까? (2)이 본문들이 어떻게“중간 행동에서 얼마나 많이 벗어나 평균의 유용성을 판단 하는가?” 더 잘 이해할 수 있도록 예제 나 견적을 제공해 주시겠습니까?
whuber

2
한 시점에서 당신은 잘못 해석합니다 : 중앙값이 몇 가지 극단적 인 관측에 견고한 유일한 통계는 아닙니다. 따라서 평균은 (종종) 바람직하지 않은 특성을 기준으로하며 중간 값과의 비교는 아닙니다. 그러나 나는 또한 당신의 우려를 희미하게 생각하며 아마도이 인용에서 발생하는 비대칭 성과 이상치의 존재와 관련이있을 수 있습니다. 유감스럽게도 잘못 생각할 수도 있는데, 특이점을 갖는 경우 비대칭 성을 의미하기는하지만 대화는 종종 사실이 아니기 때문입니다.
whuber

7
여기 독자들은 다음과 같은 관심 주제를 찾을 수 있습니다. 평균이 너무 민감한 경우 왜 처음에 사용해야합니까?
gung-Monica Monica 복원

2
"중앙 경향"에 대한 정의에 비추어, 왜 평균이 치우 치거나 특이 치가있는 경우 유용한 수단이되지 않는 것이 분명해 보입니다. 이 중심 경향의 개념을 실제로 평가하고 싶은지 아닌지는 또 다른 문제인 것 같습니다!
jsk

답변:


16

나는 평평한 규칙으로 충고에 동의하지 않습니다. (모든 책에 공통적 인 것은 아닙니다.)

문제는 더 미묘합니다.

모집단 평균에 대해 실제로 추론하는 데 관심이있는 경우 표본 평균은 최소한 편견없는 추정값이며 여러 가지 다른 장점이 있습니다. 실제로 Gauss-Markov 정리를 참조하십시오 . 선형이 최선입니다.

변수가 심하게 치우친 경우 문제는 '선형'으로 나타납니다. 어떤 상황에서는 모든 선형 추정기가 나쁠 수 있으므로 최선의 결과가 여전히 매력적이지 않을 수 있으므로 비선형 평균 추정기가 더 좋을 수 있습니다 그러나 배포판에 대해 알고 있어야합니다. 우리는 항상 그런 사치를 가지고 있지는 않습니다.

인구 평균 ( " 일반적인 연령은? ") 과 관련된 추론에 반드시 관심이없는 경우 , 특정 인구에서 다른 인구로 더 일반적인 위치 이동이 있는지, 또는 어느 위치에서나 표현 될 수 있거나 하나의 변수가 확률 적으로 다른 변수보다 더 큰 테스트를 수행 한 다음) 모집단 평균의 관점에서 캐스팅이 필요하지 않거나 비생산적 일 수 있습니다 (마지막 경우).

그래서 나는 그것이 생각하는 것에 달려 있다고 생각합니다.

  • 실제 질문은 무엇입니까? 이 상황에서 인구가 묻는 것이 좋은 일입니까?

  • 상황에 따라 질문에 대답하는 가장 좋은 방법은 무엇입니까 (이 경우 비틀림)? 샘플을 사용하는 것이 관심있는 질문에 대답하는 가장 좋은 방법입니까?

모집단 평균에 대해 직접 질문이없는 것은 아니지만 표본 평균은 그러한 질문을 보는 좋은 방법입니다. 그 질문에 대답하십시오.


14

실제 생활에서 우리는 찾으려고하는 것에 근거하여 중심 경향의 척도를 선택해야합니다. 그렇습니다. 때로는 모드가 올바른 것입니다. 때때로 그것은 Winsorized 또는 잘린 평균입니다. 때로는 기하 또는 고조파 평균입니다. 때로는 중심 경향의 좋은 척도 가 없습니다 .

입문 서적은 잘못 쓰여졌으며 적용 할 요리 책 규칙이 있다고 가르칩니다.

수입을 가져 가십시오. 이것은 종종 매우 비뚤어지고 때로는 특이 치가 있습니다. 확실히, 우리는 일반적으로 "중간 소득"이보고 된 것을 볼 수 있습니다. 그러나 때로는 특이 치와 왜곡이 중요합니다. 상황에 따라 다르며 생각이 필요합니다.

나는 이것에 대해 썼다


2
피터, 당신의 게시물에 대한 링크를 주셔서 대단히 감사합니다. 소개 텍스트가 귀하가 제공 한대로 신중하게 고려할 수 있도록 1-2 페이지의 공간을 차지했으면합니다.
Alexis

4
나는 글을 쓰지 않았지만 입문 텍스트에 대한 약간의 방어를 삽입하고 싶습니다. 경험이 풍부한 전문가가 인식 할 수있는 완전히 미묘한 견해를 제공하려는 모든 입문 텍스트는 거의 모든 의도 된 수신자에 의해 촉발 될 것입니다. 실제로 그것은 심지어 출판되지 않을 것입니다.
Nick Cox

5
실질적인 의견 : 총계가 (예를 들어) 물리적 의미를 갖도록 부가적인 값인 경우 평균은 개별 값의 분포에 관계없이 자연스러운 요약입니다.
Nick Cox

3
@NickCox 소개 텍스트가 훨씬 더 잘 할 수 있다고 생각합니다. 평균 대 중앙값은 수학적인 논거가 아니라 실질적인 논증입니다. 입문 텍스트는 읽은 사람에게 실제로 데이터 분석을 수행 할 자격이 없음을 알려줘야합니다.
Peter Flom-Monica Monica 복원

2
@jsk. 오 그래. 많은 사람들이 데이터 분석 과정을 마치고 나면 준비가되었다고 생각하기 때문에 통계에 명시 적으로 설명해야한다고 생각합니다. 실제로 많은 분야 (심리학, 사회학, 의학 등)에서 사람들은 1, 2 또는 때로는 3 코스만으로 데이터 분석을 수행해야합니다. 예를 들어 PhD 프로그램에서는 논문을 작성해야합니다. 다른 분야에서 왜 더 분명합니까? 확실하지 않습니다.
Peter Flom-Monica Monica 복원

6

데이터가 왜곡되는 경우에도 (예 : 임상 시험과 함께 계산 된 의료 비용, 등록 직후 사망하여 총 비용이 0 인 환자는 거의없고, 조사중인 특정 건강 관리 프로그램의 부작용으로 인해 많은 비용이 발생한 환자는 거의 없음) ), 평균은 적어도 하나의 실질적인 이유 때문에 중앙값보다 선호 될 수 있습니다.


Echoing Carlo의 의견 : 모집단 총계에 관심이있는 경우 (예 : 감사 샘플링) 평균 기간에 관심이 있습니다. 분포가 얼마나 비뚤어 지거나 특이한 경향이 있는가에 차이가 없다면,이를 처리하면됩니다. Winsorize, 트림, 그렇지 않으면 이상 치를 제거하거나 변환을 로그 할 수 없습니다. 계층화가 크게 도움이 될 수 있습니다. 극단적 인 이상치의 경우에는 지층으로 작성해야합니다.
Peter Westfall

3

나는 지금까지 두 가지 대답뿐만 아니라 질문에서 빠진 것은 입문 통계 책에서 평균 대 중앙값에 대한 토론이 일반적으로 분포를 수치 적으로 요약하는 방법에 관한 장에서 일찍 발생한다는 것입니다. 추론 통계와 달리, 이것은 일반적으로 그래픽과 반대로 수치 적으로 데이터의 분포에 관한 정보를 전달하는 유용한 방법이 될 설명 통계를 생성하는 것에 관한 것입니다. 이러한 상황은 일반적으로 데이터 세트의 모든 변수에 대한 그래픽 요약을위한 공간이없는 보고서 또는 저널 기사의 설명 통계 섹션입니다. 분포가 치우친 경우이 맥락에서 평균보다 중앙값을 선택하는 것이 합리적입니다. 분포가 특이 값없이 대칭 인 경우


1
설명 적 통계와 추론 적 통계에 대한 요점은 가치가 있습니다. 그러나 당신은 효과적으로 (설명 적 통계를 위해) 평균이 평균과 같을 때만 평균을 사용한다고 말합니다. 분포가 왜곡되면 중앙값이 일인당 개념을 나타내는 데 좋지 않은 역할을 합니까? "평균과 같을 때 중간 값 만 사용 하는가?"라는 입장을 취하는 것만 큼 유효하지 않습니까? 그것은 자의적이며 이러한 조치의 실질적인 의미 (주의를 배우는 사람들)에게주의를 끌지 않는 것 같습니다.
Alexis

1
목표는 일인당의 개념을 나타내지 않는 것입니까? 누가 그래? 이것이 목표가 아닌 이유는 무엇입니까?
Alexis

1
나는 그냥 선생님 ... 또는 OP에서 오는 "충격 행동"어떤 무례 함을 볼 수 없습니다 ...
닉 Stauner

1
이 인스턴스에서 추론 또는 설명 통계를 수행하는지 여부는 중요하지 않습니다. 중심 경향의 적절한 서술 적 척도가 중앙값이라면, 중앙값에 대한 추론이 도출되어야한다. 평균이면 평균입니다. 설명적인 조치가 의미가 없다면, 추론적인 조치도 의미가 없습니다.
Peter Flom-Monica Monica 복원

1
@PeterFlom 최종 목표가 추론이 아닌 경우는 어떻습니까? 설명 통계의 적절성은 통계를 생성 한 이유에 전적으로 달려 있음에 동의합니다. "설명 적 조치가 의미가 없다"는 것이 가능한 통계적 의미는 서술 적 통계가 본질적으로 의미가 없다는 것을 의미하는 것으로 보인다. 나는 거의 모든 경우에있어서, 중앙값은 정의에 의한 분포 중심의 척도로서 의미가 있다고 주장한다. 다른 목적에 적합한 지 여부는 또 다른 질문입니다.
jsk
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.