평균이 너무 민감한 경우, 처음에 왜 사용합니까?


84

중앙값이 특이 치에 내성이 있다는 것은 알려진 사실입니다. 그렇다면 언제, 왜 우리는 처음부터 평균을 사용합니까?

내가 생각할 수있는 한 가지는 특이 치의 존재를 이해하는 것입니다. 즉, 중앙값이 평균과 거리가 먼 경우 분포가 왜곡되고 특이 치로 수행 할 작업을 결정하기 위해 데이터를 검사해야 할 수도 있습니다. 다른 용도가 있습니까?


14
첫 번째 질문과 관련하여 간단한 참고 사항 : 통계의 평균은 모집단의 첫 순간 일뿐 중앙값은 아닙니다. CLT, 많은 수의 법칙 등을 사용하려고하면 유한 순간의 존재와 다시 연결됩니다. Cauchy 분포를 예로
들지만

2
@Dmitrij 깊고 통찰력있는 답변입니다. 답장으로 자세히 설명하지 않겠습니까?
whuber

평균을 사용하지 않았다면 감정을 상하게 했습니까? (죄송합니다, 저항 할 수 없습니다.)
Daniel R Hicks

3
@ 다니엘 R cks 스 : 그리고 그것은 의미가 있습니까? (죄송하지만 저항 할 수 없었습니다).
무하마드 알카로 우리

3
이 질문은 평소보다 "재미있는 알고리즘을 항상 사용하지 않는 이유는 무엇입니까?" 질문이지만 "robust == magical"이라는 기본 개념이있을 수 있습니다. 방금 강력한 방법을 사용했다면 데이터를 검사하거나 이해하거나 다른 종류의 정확도 문제에 대해 걱정할 필요가 없습니다. "건장한". 여전히 +1입니다.
Wayne

답변:


113

어떤 의미에서, 평균은 데이터에 민감하기 때문에 사용됩니다 . 분포가 대칭이되고 꼬리가 정규 분포와 비슷하다면 평균은 중심 경향을 매우 효율적으로 요약 한 것입니다. 연속 분포에 대해 강력하고 잘 정의 된 중앙값 은 데이터가 정규 분포에서 비롯된 경우의 평균만큼 효율적으로 입니다. 우리가 우리보다 더 많이 사용하지 못하게하는 것은 중간 값의 상대적 비효율입니다. 상대적 비효율은 표본 크기가 커짐에 따라 약간의 절대 비 효율성으로 변환되므로 큰 경우 중앙값 사용에 대해 더 죄책감이 없을 수 있습니다. N2πn

변동 (확산, 분산) 측정의 경우 표준 편차보다 0.98 인 매우 강력한 추정값, 즉 Gini의 평균 차이가 있습니다. 이것은 두 관측치의 평균 절대 차이입니다. [Gini의 평균 차이에 의해 추정 된 동일한 양을 추정하려면 표본 표준 편차에 상수를 곱해야합니다.] 중심 경향의 효율적인 척도는 Hodges-Lehmann 추정기, 즉 모든 쌍별 평균의 중앙값입니다. 해석이 더 단순하다면 더 많이 사용할 것입니다.


13
중심 경향의 Hodges-Lehmann 추정값에 대해 +1 많은 측면에서 그것은 평균과 중간의 중간에 있습니다. 큰 샘플에서 계산하기가 쉽지만 위치 측정의 평균 또는 평균보다 더 인기가 있다고 생각합니다.
ttnphns

BTW, @Frank, Hodges-Lehmann 센터가 따르는 이론적 샘플링 분포를 알고 있습니까? 나는 관심이 없습니다.
ttnphns

16
의견 주셔서 감사합니다. R의 단일 라이너는 최대 N = 5000 :까지 효율적으로 계산할 수 있습니다 w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2. 사소한 C, Fortran 또는 Ratfor 프로그램은 R에 의해 호출되어 빠르게 터질 수 있습니다. R의 ICSNP 패키지는 hl.loc기능 을 통해 상당히 효율적인 구현을 제공 합니다. N = 5000의 경우 위 코드보다 총 2.66 배 빠릅니다 (총 1.5 초). 신뢰 구간을 효율적으로 얻는 것도 좋을 것입니다.
Frank Harrell

@FrankHarrel 표준 편차에 대한 및 추정기에 대해 무엇을 말할 수 있습니까? 비정규 분포에 대한 Gini의 평균 차이를 사용하여 추정에 어떤 상수를 사용해야 합니까? 오픈 액세스 소스 에서이 상수의 계산 절차를 설명하는 논문을 찾을 수 없습니다 ... 또한 Gini의 평균 차이의 견고성에 대한 정보를 찾지 못했습니다. 어디에서 검색해야하는지 아이디어를 줄 수 있습니까? Q N 개의 σSnQnσ
독일 데미 도프

1
우리는 분산 측정에 대해 이야기하고 있으므로 모델 비교에는 문제가 없습니다 ( "Gini 's Index"와 혼동하지 마십시오). 지니의 평균 차이는 절대적인 척도입니다. 다른 방법보다 해석하기가 더 쉽습니다. 모든 분포에 대해 다른 상수를 계산해야한다는 사실은 상수를 사용하고 싶지 않다는 것을 알려줍니다.
Frank Harrell

36

많은 훌륭한 답변이 이미 있지만, 한 걸음 물러서서 조금 더 기본적인 것을 얻는다면, 나는 당신이 얻는 대답이 당신이 묻는 질문에 달려 있기 때문이라고 말할 것입니다. 평균과 중앙값은 서로 다른 질문에 대답합니다. 때로는 하나가 적합하고 때로는 다른 것도 있습니다.

중앙값은 특이 치가 있거나, 치우친 분포 또는 기타 값이있을 때 사용해야합니다. 그러나 항상 그런 것은 아닙니다. 소득을 얻으십시오-거의 항상 중앙값으로보고되며 일반적으로 그렇습니다. 그러나 전체 커뮤니티의 소비 전력을 살펴보면 옳지 않을 수 있습니다. 경우에 따라 모드가 가장 좋을 수도 있습니다 (예 : 데이터가 그룹화 된 경우).


8
다른 누구도 다루지 않는 것 같은 명백한 점에 대해 +1 : 다른 개념이며 다른 질문에 답변합니다. 또한 많은 경우 전체 분포를 하나의 요약 번호로 요약하여 많은 것을 잃어 버릴 수 있으므로 때로는 둘 다 형편없는 일을합니다.
마이클 맥고완

25

값이 우리에게 쓰레기 일 때, 우리는 그것을 "외부"라고 부르고 분석을 강력하게하고 싶다 (중간을 선호한다). 같은 가치가 매력적일 때 우리는 그것을 "극단적"이라고 부르고 분석이 그것에 민감하고 평균을 선호하기를 원합니다. 논리학...

평균은 분포에서 이동이 발생하는 위치에 관계없이 값 이동에 동일하게 반응합니다. 예를 들어,에 1 2 3 4 5당신이 증가 할 수 있는 2 값을 - 평균의 증가는 동일합니다. 중앙값의 반응이 "일관되지 않음": 데이터 포인트 4 또는 5에 2를 더하면 중앙값이 증가하지 않습니다. 하지만 점 2에 2를 추가 - 쉬프트가되도록 을 통해 평균, 중앙값이 크게 변경 (크게 의미가 변경됩니다보다).

평균은 항상 정확하게 있습니다. 중앙값은 그렇지 않습니다. 예를 들면, 설정 1 2 3 4 어느 2 및도 3은 중간이라고 할 수 사이의 값. 따라서 중앙값을 기반으로 한 분석이 항상 고유 한 솔루션은 아닙니다.

평균은 최소 제곱합 편차의 위치입니다. 선형 대수 (유명한 OLS 회귀 포함)를 기반으로하는 많은 최적화 작업이이 제곱 오차를 최소화 하므로 평균 개념을 의미합니다. 최소 절대 편차 편차의 궤적을 조정합니다. 이러한 오류를 최소화하기위한 최적화 기법은 비선형이며 더 복잡하고 잘 알려져 있지 않습니다.


2
+1 나는 이상치 탐지가 전적으로 주관적인 과정임을 암시하면서 첫 번째 단락이 오해 될 수 있다는 것에 대해 약간의 우려를 가지고 있습니다. 나는 당신이 그것을 암시한다는 의미는 아니라고 생각합니다.
whuber

8
+1 | 첫 번째 문장은 이상치 탐지의 적용이 전적으로 주관적이므로 그대로 유지하기 위해 투표한다고 생각합니다.
John

2
나는 외주 탐지가 주관적인 철학적 또는 도덕적 뿌리를 가진 엄격한 절차라는 것을 의미했다
ttnphns

3
@ttnphns, "outlier"대신 "outliar"철자가 의도적입니까?
mpiktas

1
의도하지 않은 오타.
ttnphns

16

이 질문에 대한 많은 답변이 있습니다. 여기 다른 곳에서는 볼 수없는 주제가 있으므로 주제와 관련이 있다고 생각하므로 여기에 포함시킬 것입니다. 사람들은 종종 중앙값이 특이 치에 대한 강력한 척도로 간주되기 때문에 대부분의 경우에도 강력하다고 생각합니다. 실제로, 그것은 비뚤어진 분포에서 편향하기에 강력한 것으로 간주됩니다. 중앙값의이 두 가지 강력한 속성은 종종 함께 가르칩니다. 근본적으로 치우친 분포는 특이 치가있는 것처럼 보이는 작은 표본을 생성하는 경향이 있으며, 기존의 지혜는 그러한 상황에서 중간 값을 사용한다는 것입니다.

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(이것이 비뚤어진다는 기본 시연)

hist(rexg(1e4, 0, 1, 1))

음모

이제이 분포에서 다양한 표본 크기를 샘플링하고 중앙값을 계산하고 그 차이점이 무엇인지 확인하면 어떻게되는지 봅시다.

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

plot2

위의 그림에서 볼 수 있듯이 중간 (빨간색)은 평균보다 n에 훨씬 더 민감합니다. 이는 특히 분포가 왜곡 될 수있는 경우 낮은 ns의 중앙값을 사용하는 것과 관련하여 몇 가지 일반적인 지혜와 상반됩니다. 그리고 평균이 알려진 값이고 중앙값이 n 인 경우 다른 속성에 민감하다는 점을 강조합니다.

이 분석은 Miller, J. (1988)와 유사합니다. 중간 반응 시간에 대한 경고. 실험 심리학 저널 : 인간의 지각과 성능 , 14 (3) : 539–543.

개정

왜곡 문제에 대해 생각할 때, 중간 값에 미치는 영향은 작은 표본에서 중간 값이 분포의 꼬리에있을 확률이 더 높기 때문에 평균은 거의 항상 방법. 따라서 아마도 특이 치 확률로 샘플링하는 경우 동일한 결과가 발생할 수 있습니다.

그래서 이상 치가 발생할 수 있고 실험자가이를 제거하려고 시도 할 수있는 상황에 대해 생각했습니다.

데이터의 단일 샘플링마다 하나와 같이 특이 치가 일관되게 발생하는 경우 중간 값은이 특이 치의 영향과 중간 값 사용에 대한 일반적인 이야기에 비해 강력합니다.

그러나 그것은 보통 상황이 아닙니다.

실험에서 아주 적은 수의 세포에서 특이 치를 발견하고이 경우 평균 대신 중간 값을 사용하기로 결정할 수 있습니다. 다시 말하지만, 중앙값은 더 강력하지만 특이 치가 거의 없기 때문에 실제 영향은 상대적으로 작습니다. 이것은 분명히 위의 경우보다 일반적인 경우이지만 중간 값을 사용하는 효과는 너무 작아서 중요하지 않을 것입니다.

아마도 더 일반적으로 특이 치는 데이터의 임의 구성 요소 일 수 있습니다. 예를 들어 모집단의 실제 평균 및 표준 편차는 약 0 일 수 있지만 평균이 3 인 특이 치 모집단에서 표본 추출하는 시간의 백분율이 있습니다. 다음과 같은 시뮬레이션을 고려하십시오. 크기.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

결과

중앙값은 빨간색이며 검정색입니다. 이것은 비뚤어진 분포와 비슷한 결과입니다.

특이 치의 영향을 피하기 위해 중간 값을 사용하는 비교적 실제적인 예에서, 평균이 사용될 때보 다 중앙값이 사용될 때 추정치가 n의 영향을 훨씬 더 많이받는 상황이 발생할 수 있습니다.


좋은 예이지만 배포판에 따라 다릅니다. 정규 분포 또는 균일 분포를 사용하는 경우 두 선이 겹쳐져 그래프가 매우 다릅니다. 차이를 만드는 것은 지수 분포입니다.
니코

1
-1이 답변은 "민감도"와 "바이어스"를 혼동합니다.
whuber

4
훨씬 낫다; downvote를 제거했습니다. 그러나 저는 새로운 설명에 흥미를 느낍니다. 실제로 텍스트, 종이 또는 웹 사이트와 같은 소스를 지적 할 수 있습니다. 실제로 "[중앙]도 왜곡 된 분포의 편향에 견고하다고 간주됩니다" 무슨 뜻일까요? 나는 이전에 그러한 주장을 겪지 않았으며 그것이 실제로 무엇을 말하는지 확신하지 못합니다.
whuber

3
심리학 연구에서 반응 시간 (비뚤어진 것으로 알려진)을 다루는 데는 더 많은 민속 지식이 있습니다. 나는 심리학에서 민중의 지혜를 반박하는 논문에 대해 언급했다.
John

3
BTW는 Miller (1988) 논문에도 불구하고 조건이 다른 샘플 수를 갖고 낮은 샘플이 일반적으로 작은 확률 조작에 대한 연구에서 여전히 중간 반응 시간을 사용합니다.
John

11
  • 평균적으로 모든 항목에 대한 합계를 계산하는 것이 쉽습니다. 예를 들어, 인구의 평균 소득과 인구의 크기를 알고 있다면 전체 인구의 총 소득을 즉시 계산할 수 있습니다.

  • 평균은 O(n)시간 복잡도 를 계산하는 것이 간단합니다 . 선형 시간으로 중앙값을 계산하는 것이 가능 하지만 더 많은 생각이 필요합니다. 정렬이 필요한 명백한 솔루션은 O(n log n)시간 이 더 복잡합니다.

그리고 나는 평균이 평균보다 더 인기있는 또 다른 이유가 있다고 추측합니다.

  • 평균은 학교에서 더 많은 사람에게 가르쳐지며 아마도 중앙값을 가르치기 전에 가르쳐 질 것

시간 복잡성 지점의 경우 값 저장 방법에 따라 다릅니다. 값이 이미 정렬 된 경우 O (1) 최악의 시간 복잡도에서 중앙값을 계산할 수 있습니다.
luiscubal

동의합니다-합계와 같은 계산에서의 적용 가능성은 평균의 주요 장점 중 하나입니다. 목표가 무언가를 설명 할 때 중간 값을 선호하는 경우가 많지만 다른 계산에 입력 할 때 평균을 사용하는 경우가 많습니다.
조나단

5

"중앙값이 특이 치에 저항력이있는 것으로 알려져 있습니다. 만약 그렇다면, 왜 평균을 언제, 왜 사용합니까?"

예를 들어 데이터 생성 프로세스를 알고있는 경우 (예 : 수학 통계) 특이 치가 없다는 것을 알고있는 경우.

사소한 점을 지적해야합니다.이 두 가지 양 (평균과 중간 값)은 실제로 같은 것을 측정하지 않으며 대부분의 사용자는 후자에 실제로 관심을 가져야 할 때 전자를 요청합니다 (이 점은 t- 검정보다 더 쉽게 해석되는 중앙값 기반 Wilcoxon 검정).

그런 다음, 어떤 일이 생길 수있는 이유나 다른 이유 때문에, 일부 규정은 그 의미의 사용을 강요합니다.


2

문제가 특이 치의 존재에 관한 것이라면 데이터를 확인하는 간단한 방법이 있습니다.

데이터를 생성하는 프로세스 또는 데이터를 수집하는 프로세스에서 무언가가 변경 될 때 거의 정의에 따라 특이 치가 데이터에 들어옵니다. 즉, 데이터는 균질하지 않습니다. 데이터가 동종이 아닌 경우 서로 혼합 된 두 개의 개별 데이터 세트의 중심 경향을 추정하려고하기 때문에 평균도 중앙값도 의미가 없습니다.

동질성을 보장하는 가장 좋은 방법은 데이터 생성 및 수집 프로세스를 검사하여 모든 데이터가 단일 프로세스 세트에서 나오는지 확인하는 것입니다. 여기에 작은 두뇌 힘을 능가하는 것은 없습니다.

2 차 점검으로 카이 제곱, 딕슨의 Q- 테스트, Grubb의 테스트 또는 제어 차트 / 프로세스 동작 차트 (일반적으로 X-bar R 또는 XmR)와 같은 여러 통계 테스트 중 하나로 전환 할 수 있습니다. 내 경험은 데이터를 수집 한 상태에서 주문할 수있을 때 프로세스 동작 차트가 특이 치 테스트보다 특이 치를 탐지하는 것이 더 낫다는 것입니다. 차트에 대한 이러한 사용은 다소 논란의 여지가 있지만 Shewhart의 원래 의도와 완전히 일치 하고 도널드 휠러 (Donald Wheeler) 가 명시 적으로 주장 하는 용도라고 생각 합니다. 특이 치 테스트를 사용하든 공정 거동 차트를 사용하든 감지 된 "이상치"는 단순히 신호 가능성을 나타냅니다.추가 검사가 필요한 비균질성. 왜 특이점에 대한 설명이 없다면 데이터 포인트를 버리는 것이 이치에 맞지 않습니다.

R을 사용하는 경우 특이 치 패키지 는 특이 치 테스트를 제공하며 프로세스 동작 차트에는 qcc , IQCC 및 qAnalyst가 있습니다. qcc 패키지의 사용법과 출력을 개인적으로 선호합니다.


2

언제 평균을 원할까요?

금융 사례 :

  • 채권 수익률 :
    • 평균 채권 수익률은 일반적으로 몇 퍼센트 포인트입니다.
    • 평균 채권 수익률은 기본 금리와 기본 회복률에 따라 낮거나 높을 수 있습니다. 중앙값은이 모든 것을 무시합니다!
    • 투자자들에게 "행운이 거의 없어도 채권의 절반이 채권으로 파산되었는데, 우리의 중간 채권이 1 %를 돌려 주었기 때문에 올해 펀드가 40 % 하락했다는 것을 알고 있습니다."
  • 벤처 캐피탈 수익 :
    • 반대로도 마찬가지입니다. 평균 VC 또는 엔젤 투자는 파산이며, 모든 수익은 소수의 우승자로부터 나옵니다! (측면 참고 / 경고 : 벤처 캐피탈 또는 사모 펀드 수익의 추정치는 매우 문제가 있습니다 ... 조심하십시오!)

다양한 포트폴리오를 구성 할 때 투자 대상과 금액을 결정하면 수익의 평균과 공분산이 최적화 문제에 크게 영향을 줄 수 있습니다.


합의했지만 평균 또는 중앙값은 이러한 상황에서 중점을 두지 않는 것 같습니다. 총계가 주요 수량이 될 수 있습니다. 당연히 그것은 평균이 중간보다 더 나은 요약이라는 것을 의미합니다. 그러나 평균 채권 수익률은 어리석은 대답 일 수 있지만 누구나 제안합니까?
Nick Cox

@NickCox 두 의견. (1) 평균 채권 수익률이 바보라는 것이 핵심입니다! 이 답변에는 훌륭한 이론이 있지만 매우 간단한 예가 약간의 색상을 추가 할 수 있다고 생각했습니다. Frank의 대답을 인용하자면, "평균은 데이터에 민감하기 때문에 사용되며"포트폴리오 수익은 원하는 곳에서 간단하고 이해하기 쉬운 상황을 제공합니다. (2) "전체"에 대한 관심과 "평균"에 대한 관심의 구별은 다소 모호 할 수 있습니다. "헤지 펀드에 투자해야합니까?" 그 대답을하기 위해 아마도 "헤지 펀드의 평균 수익률은 얼마입니까?"
Matthew Gunn

1
(1) 말한대로 동의합니다. 제 질문은 단지 중간이이 목적을 위해 교육 또는 연구 문헌에서 심각하게 언급되어 있는지 여부를 확인합니다. (2) 나는 내 요점이 성가 시다고 생각하지 않는다. 무엇을 먼저해야하는지에 대한 간단한 질문입니다. 즉, 실질적으로 주요 관심사입니다. 헤드 라인은 "총 200 년 동안 징역형"을 봤는데 왜 인쇄되는지 알지만 그럼에도 불구하고 요약하는 이상한 방법입니다. 반대로, 일련의 재난에서 200 명이 사망 한 것은 5 건이 아니라 1 차에서 평균 40 명이 사망 한 것보다 1 차적입니다. (작은) 문제는 가장 적합한 요약문을 선택하는 것입니다.
Nick Cox

@NickCox 포인트가 획득되었습니다. 나는 당신이 당신 자신의 총 투자를 걱정한다는 것에 동의합니다. 그러나 특정 유가 증권에 대해 포트폴리오를 구성하고 포트폴리오 가중치를 결정할 때 해당 보안 수익의 속성을 관리하게됩니다. 나는 모든 시립 채권을 구매하지 않을 것이며, 총액을 직접적으로 신경 쓰지 않지만 시립 채권의 평균 수익은 얼마입니까? 내 포트폴리오에 몇 가지를 추가 할 경우 위험 / 반품 속성은 무엇입니까?
Matthew Gunn

동의했다. 그것이 바로 그 영토입니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.