평균 및 중앙값 속성


18

누군가 두 문장 (a)와 (b)를 연결하는 수학적 논리를 명확하게 설명해 줄 수 있습니까? 일련의 값을 갖도록하자 (일부 분포). 지금,

a) 중간 값은 모든 값에 의존하지는 않는다 [단 하나 또는 두 개의 중간 값에 의존한다]. b) 중앙값은 최소 절대 합산 편차의 위치입니다.

마찬가지로, 대조적으로

a) (산술) 평균은 모든 값에 따라 다릅니다. b) 평균은 최소 제곱합 편차의 위치입니다.

내 이해는 지금까지 직관적입니다.


1
동일한 질문의 이전 버전 인 stats.stackexchange.com/questions/2547/ 을 검토하는 것이 좋습니다. 그리고 강력한 통계에 대한 설명 : en.wikipedia.org/wiki/Robust_statistics
bill_080

따라서 첫 번째 쌍을 위해 당신이 겪고있는 것은 보통 중간 순위 값으로 정의 된 중앙값 (어쨌든 홀수 값의 경우 가장 간단한 경우로 시작)이 합계를 최소화하는 값이라는 증거입니다. 절대 편차? 바람직하게도 직관적 인 통찰력을 제공하는 증거? 나는 자신에 대한 증거를 모른다. 그래서 좋은 질문으로 보인다. 그리고 나는 또한 대답을 알고 싶다.
onestop

당신은 저를 올바르게 느낍니다. (a)와 (b)는 현재 두 가지 통계에 대해 제 생각에는 분리 된 측면 / 속성입니다. 그러나 직관은 두 가지 측면이 묶여 있음을 시사합니다. 나는 그들이 어떻게 묶여 있는지 , 그것을 깊이 이해하기 위해 알고 싶습니다 .
ttnphns

답변:


19

이것은 두 가지 질문입니다. 하나는 평균과 중앙값이 손실 함수를 최소화하는 방법에 대한 것과 다른 하나 는 데이터에 대한 이러한 추정치 의 민감도 에 관한 것 입니다. 우리가 볼 수 있듯이 두 질문은 서로 연결되어 있습니다.

손실 최소화

일련의 숫자 중심 의 요약 (또는 추정자)은 요약 값을 변경하고 배치의 각 숫자가 해당 값에 복원력을가한다고 상상함으로써 만들 수 있습니다. 힘이 값을 숫자에서 멀어지게하지 않으면 힘의 균형이 배치의 "중심"이되는 지점 일 것입니다.

2 차 ( ) 손실2

예를 들어, 요약과 각 숫자 사이에 클래식 스프링 ( 후크 법칙에 따름)을 부착 하면 힘은 각 스프링까지의 거리에 비례합니다. 스프링은 이러한 방식으로 요약을 가져와 결국 최소한의 에너지로 독특하고 안정적인 위치에 정착합니다.

방금 발생한 작은 손에 주목하고 싶습니다. 에너지제곱 거리 의 합에 비례합니다 . 뉴턴 역학은 힘이 에너지의 변화율이라고 가르칩니다. 에너지를 최소화하는 평형을 달성하면 힘의 균형을 잡게됩니다. 에너지의 순 변화율은 0입니다.

이것을 " 요약"또는 "제곱 손실 요약" 이라고 .2

절대 ( ) 손실1

값과 데이터 사이의 거리에 관계없이 복원력 의 크기일정 하다고 가정하여 다른 요약을 작성할 수 있습니다 . 그러나 힘 자체는 항상 일정하지 않습니다. 왜냐하면 항상 각 데이터 포인트쪽으로 값을 가져와야하기 때문입니다. 따라서, 값이 데이터 포인트보다 작 으면 힘은 양의 방향으로 향하지만, 값이 데이터 포인트보다 크면 힘은 음의 방향으로 향하게됩니다. 이제 에너지 는 값과 데이터 사이의 거리에 비례합니다. 일반적으로 에너지가 일정하고 순 힘이 0 인 전체 영역이 있습니다. 이 지역의 모든 값을 " 요약"또는 "절대 손실 요약" 이라고 부를 수 있습니다 .1

이러한 물리적 비유는 두 요약에 대한 유용한 직관을 제공합니다. 예를 들어 데이터 포인트 중 하나를 이동하면 요약은 어떻게됩니까? 에서 하나의 데이터 포인트 뻗어 또는 스프링을 완화하거나 이동 연결된 스프링 케이스. 결과는 요약에서 적용되는 변경 이므로 응답으로 변경해야합니다. 그러나 경우 대부분의 경우 데이터 포인트의 변경은 그 힘이 국소 적으로 일정하기 때문에 요약에 아무런 영향을 미치지 않습니다. 힘이 변경 될 수있는 유일한 방법은 데이터 포인트가 요약을 가로 질러 이동하는 것입니다.L 121

(사실, 가치에 대한 순 힘은 그것보다 큰 점의 수 (위쪽으로 당기는 것보다 작은 점의 수를 뺀 것)에 의해 주어진다는 것이 명백해야합니다. 요약 데이터 값의 수는 정확히 그보다 적은 데이터 값의 수와 동일 초과 어느 위치에서 발생해야합니다.)1

손실을 묘사

힘과 에너지가 모두 합치기 때문에 어느 경우이든 순 에너지를 데이터 포인트의 개별 기여로 분해 할 수 있습니다. 요약 값의 함수로 에너지 또는 힘을 그래프로 표시하면 현재 상황에 대한 자세한 그림을 제공합니다. 요약은 에너지 (또는 통계적 용어에서 "손실")가 가장 작은 위치가됩니다. 마찬가지로, 힘의 균형이 유지되는 위치 가됩니다. 손실의 순 변화가 0 인 데이터 중심이 발생합니다.

이 그림은 6 개 값의 작은 데이터 세트에 대한 에너지와 힘을 보여줍니다 (각 도표에서 희미한 수직선으로 표시). 점선으로 된 검은 색 곡선은 개별 값의 기여도를 표시하는 컬러 곡선의 총계입니다. x 축은 가능한 요약 값을 나타냅니다.

그림 1

산술 평균 이 왼쪽 상단 그래프에서 검은 포물선의 정점 (아래)에 위치한다 : 제곱 손실이 최소화되는 시점이다. 항상 독특합니다. 중앙값 절대 손실이 최소화되는 시점이다. 위에서 언급했듯이 데이터 중간에 발생해야합니다. 반드시 고유하지는 않습니다. 오른쪽 위의 깨진 검은 색 곡선의 맨 아래에 위치합니다. 아래쪽은 실제로 과 사이의 짧은 평평한 섹션으로 구성 간격의 값은 중앙값입니다.0.170.230.17

감도 분석

이전에는 데이터 요소가 다양 할 때 요약에 발생할 수있는 작업에 대해 설명했습니다. 단일 데이터 포인트 변경에 대한 응답으로 요약이 변경되는 방식을 구성하는 것이 좋습니다. (이 도표는 본질적으로 경험적 영향 함수 입니다.이 값은 변경되는 값이 아니라 추정값의 실제 값을 표시한다는 점에서 일반적인 정의와 다릅니다.) 요약 값은 y에 "추정"으로 표시됩니다. -축은이 요약이 데이터 세트의 중간 위치를 추정하고 있음을 상기시킵니다. 각 데이터 포인트의 새로운 (변경된) 값은 x 축에 표시됩니다.

그림 2

이 그림은 배치 (첫 번째 그림에서 분석 된 것과 동일) 에서 각 데이터 값을 변경 한 결과를 나타냅니다 . 각 데이터 값에 대해 하나의 플롯이 있으며 하단 축을 따라 긴 검은 눈금으로 플롯에 강조 표시됩니다. 나머지 데이터 값은 짧은 회색 눈금으로 표시됩니다. 파란색 곡선은 요약 (산술 평균)을 추적하고 빨간색 곡선은 요약 (중앙)을 추적합니다 . (중앙값은 종종 값의 범위이므로, 해당 범위의 중간을 플로팅하는 규칙이 여기에 따릅니다.)L 2 L 11.02,0.82,0.23,0.17,0.08,0.7721

주의:

  1. 평균의 감도는 제한이 없습니다. 파란색 선은 무한히 위 아래로 뻗어 있습니다. 중앙값의 민감도는 제한되어 있습니다. 빨간색 곡선에는 상한과 하한이 있습니다.

  2. 그러나 중앙값이 변하는 경우 평균보다 훨씬 빠르게 변합니다. 각 파란색 선의 기울기는 (일반적으로 값 을 가진 데이터 집합의 경우 )이며 빨간색 선의 기울어 진 부분의 기울기는 모두 입니다.1 / N N 1 / 21/61/1/2

  3. 평균은 모든 데이터 포인트에 민감하며이 감도에는 한계가 없습니다 (첫 번째 그림의 왼쪽 아래 그림에서 모든 컬러 선의 0이 아닌 기울기가 나타남). 중앙값이 모든 데이터 포인트에 민감하지만 감도가 제한됩니다 (이로 인해 첫 번째 그림의 오른쪽 아래 플롯의 색상 곡선이 0 근처의 좁은 수직 범위 내에 있음). 물론 이것들은 단지 기본 힘 (손실) 법칙의 시각적 반복입니다 : 평균에 대한 2 차, 중앙값에 대한 선형.

  4. 중앙값을 변경할 수있는 간격은 데이터 포인트마다 다를 수 있습니다. 항상 변하지 않는 데이터 중 두 개의 근중 값에 의해 제한됩니다 . (이러한 경계는 희미한 수직 파선으로 표시됩니다.)

  5. 중앙값의 변화율은 항상 이므로, 변화 할 수 있는 양은 데이터 세트의 거의 중간 값 사이의이 간격의 길이에 의해 결정됩니다.1/2

첫 번째 점만 일반적으로 언급되지만 네 가지 점이 모두 중요합니다. 특히,

  • "중앙값이 모든 값에 의존하지는 않는다"는 것은 명백한 사실입니다. 이 그림은 반례를 제공합니다.

  • 그럼에도 불구하고 중앙값은 개별 값을 변경하면 중앙값이 변경 될 수 있지만 데이터 세트의 중간 값 사이의 간격에 의해 제한되는 정도 라는 점에서 모든 값"중요하게"의존하지 않습니다 . 특히, 변화의 양은 제한되어 있습니다. 중앙값은 "저항성"요약이라고합니다.

  • 비록 평균 내성이없는 , 언제 변경됩니다 모든 데이터 값이 변경되면, 변화 속도는 비교적 작다. 데이터 세트가 클수록 변화율이 작아집니다. 동등하게, 큰 데이터 세트의 평균에서 재료 변화를 생성하기 위해, 적어도 하나의 값은 비교적 큰 변화를 겪어야한다. 이는 평균의 비저항이 (a) 작은 데이터 세트 또는 (b) 하나 이상의 데이터가 배치의 중간에서 매우 멀리 떨어진 값을 가질 수있는 데이터 세트에만 관심이 있음을 나타냅니다.

이러한 수치는 수치가 분명하기를 바라면서 손실 함수추정기감도 (또는 저항) 사이의 깊은 연결을 보여줍니다 . 이에 대한 자세한 내용은 M-estimators에 대한 Wikipedia 기사 중 하나 부터 시작하여 원하는만큼 아이디어를 추구하십시오.


암호

R코드는 그림을 생성했으며 동일한 방식으로 다른 데이터 세트를 연구하도록 쉽게 수정할 수 있습니다. 무작위로 생성 된 벡터 y를 임의의 숫자 벡터로 간단히 바꾸십시오 .

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

3
나는 대답 외에도 힘들고 스타일이 바쁘기 때문에 현상금을 제공하고 있습니다.
ttnphns 2014 년

감사합니다! 이 게시물에 대한 귀하의 감사는 가장 기쁘게 생각합니다.
whuber

11

엑스1,엑스2,,엑스와이에프(와이)와이엑스나는에프(와이)=|엑스1와이|+|엑스2와이|++|엑스와이|와이에프(와이)엑스나는와이아르 자형=와이와이와이에프(와이)

Δ와이와이엑스나는와이|엑스나는와이|Δ와이와이|엑스나는와이|Δ와이Δ와이와이에프(와이)Δ와이아르 자형Δ와이=(아르 자형)Δ와이에프(와이)엑스나는와이와이에프(와이)아르 자형=0엑스나는와이와이엑스나는

에프(와이)에프(와이)=(엑스1와이)2++(엑스와이)2에프(와이)와이엑스나는와이

에프(와이)


1
엑스나는

우아한 설명에 감사드립니다. 그러나 "나에게 작은 변화가 함수를 변경하지 않는 숫자 y Sum | x_i-y | 는 각 x_i에 의존하지 않고 중간이라고합니다." n 데이터의 중앙값에 대한 흥미로운 메모입니다 . 그러나 나는 이것을 증명 해달라고 요청했다 : " 기능 Sum | x_i-y | 를 최소화하는 숫자 y 는 각각의 x_i에 의존하지 않고 중간이라고한다". 마찬가지로 : " 함수 Sum (x_i-y) ^ 2 를 최소화하는 숫자 y 는 각 x_i 에 동일하게 의존 하며 평균이라고합니다."
ttnphns

1
어떻게 '중앙값'이라고 증명해야합니까? 그건 미친 짓이야.
shabbychef

원인의 트로피입니다. 부분은 증명할 수 없습니다. 이해했으면 좋겠습니다.
ttnphns

1
절대 편차의 대신 절대 편차의 중앙값 에 대해 비슷한 결과가 있습니까? 중앙값으로부터의 절대 절대 편차는 분산의 상당히 흥미로운 척도이기 때문입니다.
samthebest

3
  • 엑스()2엑스()
  • 아르 자형

나는=1|엑스나는미디엄이자형나는|나는=1|엑스나는|

나는=1(엑스나는미디엄이자형)2나는=1(엑스나는)2


기본 수학 교육이 부족한 숙련 된 통계 학자로서 저는 평균 및 중간 차이와 응용에 대해 여전히 많이 알고 있습니다. 내가 여기에 필요한 것은 (a) (b) 또는 (b) (a)에서 논리적 또는 수학적으로 그림을 그리는 사람입니다. 나는 (a) (b) 합리적으로 자신과 조화를 이룰 수 없다고 생각합니다. 마르코, 나는 당신의 표기법을 이해하는 것이 매우 어렵다는 것을 알았습니다. 당신의 공식이 내가 요구하는 공제라면, 당신은 저에게 기술적으로 덜 기술을 "이용할 수 있습니까?"
ttnphns 2019

추신 : 당신의 두 불평등이 마침내 내 화면에 올바르게 표시되는 한, 그것은 단지 내 (b) 진술입니다. 당신은 "그것을 보여줄 수있다 ..."라고 쓴다. 저에게 보여주세요. 전문 수학자가 아닌 데이터 분석가에게 이해하기 쉬운 용어로 수학적 증거가 필요합니다.
ttnphns

2
@ttnphns : 직관적 인 답변이 아닌 수학적인 요청은 사람들이 제공 한 것보다 덜 기술적 인 것에 대한 요청과 호환되지 않는 것 같습니다.
rolando2

상황을 2 점 또는 3 점으로 단순화하고 위의 이중 합산 비 엄격 불평등의 중앙값이 고유 한 값을 갖는지 물어볼 수 있습니까? 두 점이 있으면 2 점 사이의 어떤 점이라도 만족할 것 같습니다.
DWin

2

이봐, 내가 그것에 대해 조금 읽은 후 공헌입니다. 아마도 요청한 사람에게는 약간 늦었지만 다른 사람에게는 가치가있을 것입니다.

평균적인 경우 :

아르 자형미디엄나는엑스나는=1(와이나는엑스)

에프(엑스)=나는=1(와이나는엑스)2

에프'(엑스)=02나는=1(와이나는엑스)=0

에프'(엑스)=0나는=1와이나는=나는=1엑스

에프'(엑스)=0엑스=나는=1

함수가 볼록하므로 최소값입니다

중간 경우

아르 자형미디엄나는엑스나는=1|와이나는엑스|

에프(엑스)=나는=1|와이나는엑스|

에프'(엑스)=0나는=1에스(와이나는엑스)=0

에스(엑스)에스(엑스)=1엑스>0에스(엑스)=1엑스<0

에프'(엑스)=0#{와이나는/와이나는>엑스}#{와이나는/와이나는<엑스}=0

# 공간의 추기경이므로이 별개의 경우 그 안에있는 요소의 수)

에프'(엑스)=0엑스

기능도 볼록하기 때문에 이것은 다시 최소한입니다.


감사. 나와 다른 사람들에게 도움이 될 수 있습니다. 수식을 이해하는 데 능숙하지 않은 사람을 위해 표현의 주요 단어로 몇 가지 주석을 추가 할 수 있습니까? 특히, 마지막 한 줄로 무엇을 의미 #합니까?
ttnphns

지금은 분명합니까? 나는 덜 일반적인 두 함수를 정의했다
Anthony Martin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.