왼쪽으로 치우친 데이터에서 평균과 중앙값 사이의 관계는 무엇입니까?


12

나는 평균 평균 이라고 생각합니다 .

이 경우입니까?


2
어떤 공개 MOOC 과정입니까? 코스 자료는 대답이 무엇이어야한다고 제안합니까?
Glen_b-복지 주 모니카


1
고마워, 적어도 약간의 맥락이지만, 남은 모든 것은이 문제에 대해 많은 것을 밝히지 않는 주간 독서가 있습니다. 코스에서 주제에 대해 무엇을 말해야하는지 궁금합니다.
Glen_b-복지 주 모니카

답변:


16

사소한 질문입니다 (질문을 묻는 사람들이 생각하는 것처럼 사소한 것은 아닙니다).

어려움은 궁극적으로 우리가 '왜곡'의 의미를 알지 못하기 때문에 발생합니다. 많은 시간이 분명하지만 때로는 그렇지 않습니다. 사소한 경우에 '위치'와 '확산'이 의미하는 것을 찾아내는 것이 어렵다는 점을 고려할 때 (예를 들어, 평균이 위치에 대해 이야기 할 때 항상 의미하는 것은 아닙니다), 더 미묘한 것은 놀라운 일이 아닙니다 왜도 같은 개념은 적어도 미끄 럽습니다. 따라서 이것은 우리가 의미하는 바에 대한 다양한 대수적 정의를 시도하게하며, 항상 서로 동의하지는 않습니다.

μμ

3(μμ)σ,
μ<μ

이러한 통계의 샘플 버전도 비슷하게 작동합니다.

이 경우 평균과 중간 값 사이에 필요한 관계가있는 이유는 왜도 측정법이 정의 되었기 때문입니다.

다음은 왼쪽으로 치우친 밀도입니다 (두 번째 Pearson 측정 값과 아래의 (2)에서 더 일반적인 측정 값 모두)

여기에 이미지 설명을 입력하십시오

중앙값은 아래쪽 여백에 녹색으로 표시되고 평균은 빨간색으로 표시됩니다.

그래서 나는 그들이 당신이 원하는 대답 이 평균이 중앙값보다 작다는 것을 기대합니다 . 일반적으로 우리가 이름을 짓는 배포판의 경우입니다.

(그러나 계속 읽고 왜 이것이 일반적인 진술로 정확하지 않은지보십시오.)


2)보다 일반적인 표준화 된 세 번째 모멘트로 측정하는 경우 가 많지만 항상 그런 것은 아니지만 평균이 중간 값보다 작은 경우가 있습니다.

즉, 반대가 참이거나 하나의 왜도 측정이 0이고 다른 하나가 0이 아닌 예를 구성 할 수 있습니다.

다시 말해서, 평균의 위치, 중앙값 및 모멘트 왜곡 사이에 필요한 관계 가 없습니다 .

예를 들어 다음 샘플을 고려하십시오 (동일한 예제는 이산 확률 분포로 구성 될 수 있음).

  2.7 15.0 15.0 15.0 30.0 30.0

mean: 17.95
median: 15

그러나 (Fisher, 3-moment) 왜도 계수는 음수 (즉, 빛에 의해 왼쪽으로 치우친 데이터가 있음)이므로 평균과의 편차 큐브의 합은 음수이므로

따라서이 경우 왼쪽으로 치우 치지 만 평균> 중앙값입니다.

반면에 위의 예에서 2.7을 3으로 변경하면 모멘트 왜곡이 0이지만 평균이 중앙값을 초과하는 예가 있습니다. 3.3으로 설정하면 모멘트 왜곡이 양수입니다. 평균이 중간 값을 초과합니다. 즉, '예상 된'방향입니다.)

위의 정의 중 하나 대신 첫 번째 Pearson 왜도를 사용하는 경우이 경우와 비슷한 문제가 있습니다. 왜도의 방향은 평균과 중간 값 사이의 관계를 고정시키지 않습니다.


편집 : 의견의 질문에 대한 답변-평균과 중앙값은 같지만 모멘트 왜곡은 음의 예입니다. 다음과 같은 데이터를 고려하십시오 (이전과 같이 이산 개체군의 예로 계산됩니다. 주사위의면에 숫자를 쓰십시오).

 1  5  6  6  8 10

평균과 중앙값은 모두 6이지만 평균과의 편차 큐브의 합은 음수이므로 세 번째 모멘트 왜곡은 음입니다.


1
@Peter 느리게 답장을 보내서 죄송합니다. 그런 예제를 작성하는 데 바빴으며 귀하의 질문을 보지 못했습니다.
Glen_b-복지 주 모니카

2
나는 많은 교과서 정의를 보았지만 이것에 대해서는 언급하지 않았습니다. 멋있는.
Peter Flom-Monica Monica 복원

6
@Peter 불행히도, 많은 초등 교과서는 실제로 실제 조사를하지 않고 다른 교과서에서 잘못된 정보를 반복하기 때문에 기본 오해가 전파됩니다. 당신이 볼 수 있듯이, 반례는 비교적 쉽게 구성 할 수 있습니다 (필요에 따라 직접 작성합니다). Kendall과 Stuart ( 고급 통계 이론, 제 1 권 -제목을 밝히지 말고 읽을 수 있음), 적어도 세 번째와 네 번째 판에는 좋은 정보가 있습니다. 최신판은 Stuart와 Ord가 작성했습니다. 실제로이 문제에 대해 CV에 여러 번 게시했습니다.
Glen_b-복지 주 모니카

4
(5k)0.8k0.25k(5k)0.2k0.85k=

1
@Nick 예, 정수 평균을 가진 이항 법이 좋은 예입니다.
Glen_b-복지 주 모니카

5

제 왼쪽 평균이 있도록 데이터가 왼쪽 (로우 엔드)에 긴 꼬리를 가지고 왜곡 일반적으로 적은 평균보다. (그러나 예외는 @Glen_b의 답변을 참조하십시오). 우연히도 "비뚤어진"데이터는 평균보다 작을 것이라고 생각합니다.

오른쪽으로 치우친 데이터가 더 일반적입니다. 예를 들어 수입. 평균이 중앙값보다 큽니다.

R 코드

set.seed(123)  #set random seed
normdata <- rnorm(1000) #Normal data, skew = 0
extleft <- c(rep(-10, 5), rep(-20, 5)) #Some data to make skew left
alldata <- c(normdata,extleft)

library(moments)
skewness(alldata) #-6.77
mean(alldata) #-0.13
median(alldata) #-0.001

평균이 중앙값과 같을 수 있습니까?
Kunjan Kshetri

unj2 세 번째 순간 왜곡이 음이지만 평균 = 중간 값 인 대답에 예를 추가했습니다.
Glen_b-복지국 Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.