누군가 두 문장 (a)와 (b)를 연결하는 수학적 논리를 명확하게 설명해 줄 수 있습니까? 일련의 값을 갖도록하자 (일부 분포). 지금,
a) 중간 값은 모든 값에 의존하지는 않는다 [단 하나 또는 두 개의 중간 값에 의존한다]. b) 중앙값은 최소 절대 합산 편차의 위치입니다.
마찬가지로, 대조적으로
a) (산술) 평균은 모든 값에 따라 다릅니다. b) 평균은 최소 제곱합 편차의 위치입니다.
내 이해는 지금까지 직관적입니다.
누군가 두 문장 (a)와 (b)를 연결하는 수학적 논리를 명확하게 설명해 줄 수 있습니까? 일련의 값을 갖도록하자 (일부 분포). 지금,
a) 중간 값은 모든 값에 의존하지는 않는다 [단 하나 또는 두 개의 중간 값에 의존한다]. b) 중앙값은 최소 절대 합산 편차의 위치입니다.
마찬가지로, 대조적으로
a) (산술) 평균은 모든 값에 따라 다릅니다. b) 평균은 최소 제곱합 편차의 위치입니다.
내 이해는 지금까지 직관적입니다.
답변:
이것은 두 가지 질문입니다. 하나는 평균과 중앙값이 손실 함수를 최소화하는 방법에 대한 것과 다른 하나 는 데이터에 대한 이러한 추정치 의 민감도 에 관한 것 입니다. 우리가 볼 수 있듯이 두 질문은 서로 연결되어 있습니다.
일련의 숫자 중심 의 요약 (또는 추정자)은 요약 값을 변경하고 배치의 각 숫자가 해당 값에 복원력을가한다고 상상함으로써 만들 수 있습니다. 힘이 값을 숫자에서 멀어지게하지 않으면 힘의 균형이 배치의 "중심"이되는 지점 일 것입니다.
예를 들어, 요약과 각 숫자 사이에 클래식 스프링 ( 후크 법칙에 따름)을 부착 하면 힘은 각 스프링까지의 거리에 비례합니다. 스프링은 이러한 방식으로 요약을 가져와 결국 최소한의 에너지로 독특하고 안정적인 위치에 정착합니다.
방금 발생한 작은 손에 주목하고 싶습니다. 에너지 는 제곱 거리 의 합에 비례합니다 . 뉴턴 역학은 힘이 에너지의 변화율이라고 가르칩니다. 에너지를 최소화하는 평형을 달성하면 힘의 균형을 잡게됩니다. 에너지의 순 변화율은 0입니다.
이것을 " 요약"또는 "제곱 손실 요약" 이라고 .
값과 데이터 사이의 거리에 관계없이 복원력 의 크기 가 일정 하다고 가정하여 다른 요약을 작성할 수 있습니다 . 그러나 힘 자체는 항상 일정하지 않습니다. 왜냐하면 항상 각 데이터 포인트쪽으로 값을 가져와야하기 때문입니다. 따라서, 값이 데이터 포인트보다 작 으면 힘은 양의 방향으로 향하지만, 값이 데이터 포인트보다 크면 힘은 음의 방향으로 향하게됩니다. 이제 에너지 는 값과 데이터 사이의 거리에 비례합니다. 일반적으로 에너지가 일정하고 순 힘이 0 인 전체 영역이 있습니다. 이 지역의 모든 값을 " 요약"또는 "절대 손실 요약" 이라고 부를 수 있습니다 .
이러한 물리적 비유는 두 요약에 대한 유용한 직관을 제공합니다. 예를 들어 데이터 포인트 중 하나를 이동하면 요약은 어떻게됩니까? 에서 하나의 데이터 포인트 뻗어 또는 스프링을 완화하거나 이동 연결된 스프링 케이스. 결과는 요약에서 적용되는 변경 이므로 응답으로 변경해야합니다. 그러나 경우 대부분의 경우 데이터 포인트의 변경은 그 힘이 국소 적으로 일정하기 때문에 요약에 아무런 영향을 미치지 않습니다. 힘이 변경 될 수있는 유일한 방법은 데이터 포인트가 요약을 가로 질러 이동하는 것입니다.L 1
(사실, 가치에 대한 순 힘은 그것보다 큰 점의 수 (위쪽으로 당기는 것보다 작은 점의 수를 뺀 것)에 의해 주어진다는 것이 명백해야합니다. 요약 데이터 값의 수는 정확히 그보다 적은 데이터 값의 수와 동일 초과 어느 위치에서 발생해야합니다.)
힘과 에너지가 모두 합치기 때문에 어느 경우이든 순 에너지를 데이터 포인트의 개별 기여로 분해 할 수 있습니다. 요약 값의 함수로 에너지 또는 힘을 그래프로 표시하면 현재 상황에 대한 자세한 그림을 제공합니다. 요약은 에너지 (또는 통계적 용어에서 "손실")가 가장 작은 위치가됩니다. 마찬가지로, 힘의 균형이 유지되는 위치 가됩니다. 손실의 순 변화가 0 인 데이터 중심이 발생합니다.
이 그림은 6 개 값의 작은 데이터 세트에 대한 에너지와 힘을 보여줍니다 (각 도표에서 희미한 수직선으로 표시). 점선으로 된 검은 색 곡선은 개별 값의 기여도를 표시하는 컬러 곡선의 총계입니다. x 축은 가능한 요약 값을 나타냅니다.
산술 평균 이 왼쪽 상단 그래프에서 검은 포물선의 정점 (아래)에 위치한다 : 제곱 손실이 최소화되는 시점이다. 항상 독특합니다. 중앙값 절대 손실이 최소화되는 시점이다. 위에서 언급했듯이 데이터 중간에 발생해야합니다. 반드시 고유하지는 않습니다. 오른쪽 위의 깨진 검은 색 곡선의 맨 아래에 위치합니다. 아래쪽은 실제로 과 사이의 짧은 평평한 섹션으로 구성 간격의 값은 중앙값입니다.− 0.17
이전에는 데이터 요소가 다양 할 때 요약에 발생할 수있는 작업에 대해 설명했습니다. 단일 데이터 포인트 변경에 대한 응답으로 요약이 변경되는 방식을 구성하는 것이 좋습니다. (이 도표는 본질적으로 경험적 영향 함수 입니다.이 값은 변경되는 값이 아니라 추정값의 실제 값을 표시한다는 점에서 일반적인 정의와 다릅니다.) 요약 값은 y에 "추정"으로 표시됩니다. -축은이 요약이 데이터 세트의 중간 위치를 추정하고 있음을 상기시킵니다. 각 데이터 포인트의 새로운 (변경된) 값은 x 축에 표시됩니다.
이 그림은 배치 (첫 번째 그림에서 분석 된 것과 동일) 에서 각 데이터 값을 변경 한 결과를 나타냅니다 . 각 데이터 값에 대해 하나의 플롯이 있으며 하단 축을 따라 긴 검은 눈금으로 플롯에 강조 표시됩니다. 나머지 데이터 값은 짧은 회색 눈금으로 표시됩니다. 파란색 곡선은 요약 (산술 평균)을 추적하고 빨간색 곡선은 요약 (중앙)을 추적합니다 . (중앙값은 종종 값의 범위이므로, 해당 범위의 중간을 플로팅하는 규칙이 여기에 따릅니다.)L 2 L 1
주의:
평균의 감도는 제한이 없습니다. 파란색 선은 무한히 위 아래로 뻗어 있습니다. 중앙값의 민감도는 제한되어 있습니다. 빨간색 곡선에는 상한과 하한이 있습니다.
그러나 중앙값이 변하는 경우 평균보다 훨씬 빠르게 변합니다. 각 파란색 선의 기울기는 (일반적으로 값 을 가진 데이터 집합의 경우 )이며 빨간색 선의 기울어 진 부분의 기울기는 모두 입니다.1 / N N 1 / 2
평균은 모든 데이터 포인트에 민감하며이 감도에는 한계가 없습니다 (첫 번째 그림의 왼쪽 아래 그림에서 모든 컬러 선의 0이 아닌 기울기가 나타남). 중앙값이 모든 데이터 포인트에 민감하지만 감도가 제한됩니다 (이로 인해 첫 번째 그림의 오른쪽 아래 플롯의 색상 곡선이 0 근처의 좁은 수직 범위 내에 있음). 물론 이것들은 단지 기본 힘 (손실) 법칙의 시각적 반복입니다 : 평균에 대한 2 차, 중앙값에 대한 선형.
중앙값을 변경할 수있는 간격은 데이터 포인트마다 다를 수 있습니다. 항상 변하지 않는 데이터 중 두 개의 근중 값에 의해 제한됩니다 . (이러한 경계는 희미한 수직 파선으로 표시됩니다.)
중앙값의 변화율은 항상 이므로, 변화 할 수 있는 양은 데이터 세트의 거의 중간 값 사이의이 간격의 길이에 의해 결정됩니다.
첫 번째 점만 일반적으로 언급되지만 네 가지 점이 모두 중요합니다. 특히,
"중앙값이 모든 값에 의존하지는 않는다"는 것은 명백한 사실입니다. 이 그림은 반례를 제공합니다.
그럼에도 불구하고 중앙값은 개별 값을 변경하면 중앙값이 변경 될 수 있지만 데이터 세트의 중간 값 사이의 간격에 의해 제한되는 정도 라는 점에서 모든 값 에 "중요하게"의존하지 않습니다 . 특히, 변화의 양은 제한되어 있습니다. 중앙값은 "저항성"요약이라고합니다.
비록 평균 내성이없는 , 언제 변경됩니다 모든 데이터 값이 변경되면, 변화 속도는 비교적 작다. 데이터 세트가 클수록 변화율이 작아집니다. 동등하게, 큰 데이터 세트의 평균에서 재료 변화를 생성하기 위해, 적어도 하나의 값은 비교적 큰 변화를 겪어야한다. 이는 평균의 비저항이 (a) 작은 데이터 세트 또는 (b) 하나 이상의 데이터가 배치의 중간에서 매우 멀리 떨어진 값을 가질 수있는 데이터 세트에만 관심이 있음을 나타냅니다.
이러한 수치는 수치가 분명하기를 바라면서 손실 함수 와 추정기 의 감도 (또는 저항) 사이의 깊은 연결을 보여줍니다 . 이에 대한 자세한 내용은 M-estimators에 대한 Wikipedia 기사 중 하나 부터 시작하여 원하는만큼 아이디어를 추구하십시오.
이 R
코드는 그림을 생성했으며 동일한 방식으로 다른 데이터 세트를 연구하도록 쉽게 수정할 수 있습니다. 무작위로 생성 된 벡터 y
를 임의의 숫자 벡터로 간단히 바꾸십시오 .
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}
과
이봐, 내가 그것에 대해 조금 읽은 후 공헌입니다. 아마도 요청한 사람에게는 약간 늦었지만 다른 사람에게는 가치가있을 것입니다.
평균적인 경우 :
함수가 볼록하므로 최소값입니다
중간 경우
공간의 추기경이므로이 별개의 경우 그 안에있는 요소의 수)
기능도 볼록하기 때문에 이것은 다시 최소한입니다.
#
합니까?