왜 제곱 차이가 일반적으로 사용됩니까?

새로운 통계적 방법과 개념을 조사 할 때, 나는 종종 제곱 차이 (또는 평균 제곱 오차 또는 수많은 다른 상피)에 부딪칩니다. 예를 들어, Pearson의 r은 점이 놓인 회귀선과의 평균 제곱 차를 기준으로 결정됩니다. 분산 분석의 경우 제곱의 합 등을보고 있습니다.

이제 모든 것을 제곱함으로써 특이 치가있는 데이터가 실제로 불이익을 받는다는 것을 이해합니다. 그러나 지수가 정확히 2를 사용하는 이유는 무엇입니까? 왜 2.1, e, pi 등이 아닌가? 2가 사용되는 특별한 이유가 있습니까? 아니면 그냥 관습입니까? 설명이 종 곡선과 관련이 있다고 생각하지만 확실합니다.

normal-distribution

— 스펠 도사
소스

먼저, EXPONENTIAL이라는 용어를 잘못 사용하고 있는데, 이는 대신 와 같은 것을 나타냅니다 . 둘째, stats.stackexchange.com/questions/118/… 에서이 주제에 대해 자세히 살펴보십시오 .

a^{x}

$a^x$

x^{a}

$x^a$

— Russ Lenth

@ rvl 감사합니다, 나는 내 질문에서 그 용어를 편집했습니다. 고마워요, 그 질문을 확인하겠습니다!

— Speldosa

그것들이 궁극적으로 나타나는 한 가지 좋은 이유는 합의 분산을 성분의 분산 (및 공분산)과 관련시키는 간단한 공식과 제곱의 분해에 대한 깔끔한 결과에서 비롯됩니다. 위의 @rvl 링크로 질문에 대한 답변이 나오면 질문을 닫는 것을 고려하십시오. 질문에 대한 답변이 충분하지 않은 경우 질문을 수정하여 알고 싶은 내용과 다루는 내용의 차이점을 강조 표시하십시오.

— Glen_b-복지 주 모니카

나는 이것이 제곱에 관한 다른 (인기있는) 실과 다른 질문이라고 생각합니다. 제곱 손실 함수 (하단에이 질문에 답하는 열쇠 임)와 편차 (다른 스레드의 추력)를 평가하기위한 제곱 사이에는 개념적 차이가 있습니다.

— whuber

비슷한 문제에 대해서는 여기 와 여기 를 확인 하십시오 .

— 팀

통계에 대한 의사 결정 이론적 접근법은 깊은 설명을 제공합니다. 차이를 제곱 하는 것은 (상당히 채택 될 수있을 때마다) 고려할 수있는 통계 절차에서 상당한 단순화로 이어지는 광범위한 손실 함수에 대한 대리라고 말합니다 .

불행히도, 이것이 의미하는 바를 설명하고 그 이유를 나타내는 것은 많은 설정이 필요합니다. 이 표기법은 이해하기 어려워 질 수 있습니다. 내가 여기서하고자하는 것은 약간의 정교함만으로 주요 아이디어를 스케치하는 것입니다. 전체 계정은 참조를 참조하십시오.

표준의 풍부한 데이터 모델 은 분포 가 일부 세트 분포 의 요소로만 알려진 (실제, 벡터 값을 갖는) 임의 변수 의 실현임을 주장합니다. 자연의 . 통계적 과정은 함수이고 의 결정의 일부 세트에 값을 가지고 의 결정 공간. $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

예를 들어, 예측 또는 분류 문제에서 는 "훈련 세트"와 "테스트 데이터 세트"의 합집합으로 구성되며 는 를 테스트 세트에 대한 예측 값 세트로 매핑 합니다. 가능한 모든 예측 값의 집합은 입니다. $\mathbf x$ $t$ $\mathbf x$ $D$

절차에 대한 전체 이론적 논의는 무작위 절차 를 수용해야한다 . 무작위 절차는 확률 분포에 따라 두 가지 이상의 가능한 결정 중에서 선택합니다 (데이터 에 따라 다름 ). 데이터가 두 가지 대안을 구별하지 않는 것처럼 보일 때, 당신은 확실한 대안을 결정하기 위해 "코인을 뒤집습니다"라는 직관적 인 아이디어를 일반화합니다. 많은 사람들이 무작위 절차를 싫어하여 예측할 수없는 방식으로 결정을 내리는 데 반대합니다. $\mathbf x$

의사 결정 이론의 특징은 손실 함수 사용한다는 것 입니다. $W$ 자연의 모든 상태 및 결정 의 손실 $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

는 자연의 실제 상태가 때 결정을 내리는 방법이 얼마나 "나쁜"지를 나타내는 숫자 값 이다 . 작은 손실이 좋고 큰 손실이 나쁘다. 예를 들어, 가설 검정 상황에서 는 "수락"과 "거부"(제로 가설)라는 두 가지 요소를 갖습니다. 손실 함수는 올바른 결정을 강조합니다. 결정이 정확하고 그렇지 않은 경우에는 됩니다. (이를 " 손실 함수 "라고 합니다. 모든 잘못된 결정이 똑같이 나쁘고 모든 올바른 결정이 똑같이 좋습니다.) 구체적으로 가 귀무 가설에 있을 때 $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ $F$ $W(F,\text{ reject})=0$ $F$ 는 대립 가설에 있습니다.

프로 시저 사용할 때 실제 자연 상태가 때 데이터 의 손실은 로 쓸 수 있습니다 . 이것은 감소한다 랜덤 변수 와 배포 (미지)에 의해 결정된다 . $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

프로 시저의 예상 손실 그라고 위험 , . 기대는 자연 상태 를 사용하므로 기대 연산자의 아래 첨자로 명시 적으로 나타납니다. 우리는 위험을 의 함수로보고 다음 표기법으로 강조합니다. $t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

더 나은 절차는 위험이 적습니다. 따라서 위험 함수를 비교하는 것이 좋은 통계 절차를 선택하기위한 기초입니다. 공통 (양수) 상수로 모든 위험 함수의 크기를 조정해도 비교는 변경되지 않으므로 의 척도 에는 차이가 없습니다. 우리는 원하는 양의 값을 자유롭게 곱할 수 있습니다. 특히, 에 를 곱 하면 손실 함수 (이름을 정당화)에 대해 항상 을 취할 수 있습니다 . $W$ $W$ $1/w$ $w=1$ $0-1$

손실 함수를 나타내는 가설 검정 예제를 계속 진행하기 위해 이러한 정의 는 귀무 가설에서 의 위험이 있음을 암시 하여 결정이 "거부"될 수있는 가능성을 암시 하고 대안에서 의 위험은 결정이 "수락"일 확률 귀무 가설의 모든 에 대한 최대 값 은 검정 크기 이며 대립 가설에 정의 된 위험 함수의 일부는 검정 검정력 의 보수입니다 ( ). 여기서 우리는 고전적 (가주 적) 가설 검정 이론의 전체가 특별한 종류의 손실에 대한 위험 함수를 비교하는 특정 방법에 어떻게 영향을 미치는지 봅니다. $0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$

그런데 지금까지 제시된 모든 내용은 베이지안 패러다임을 포함한 모든 주류 통계와 완벽하게 호환됩니다. 또한 베이지안 분석에서는 대한 "사전"확률 분포를 도입하고 이를 사용하여 위험 함수의 비교를 단순화합니다. 잠재적으로 복잡한 함수 는 이전 분포와 관련하여 예상 값으로 대체 될 수 있습니다. 따라서 모든 절차 는 단일 숫자 ; Bayes 프로 시저 (보통 고유)는 최소화 . 손실 함수는 여전히 계산에 필수적인 역할을 합니다. $\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

손실 기능의 사용을 둘러싼 논쟁의 여지가 있습니다. 어떻게 선택 합니까? 기본적으로 가설 검정에는 고유하지만 대부분의 다른 통계 설정에서는 많은 선택이 가능합니다. 의사 결정자의 가치를 반영합니다. 예를 들어, 데이터가 의료 환자의 생리 학적 측정이고 결정이 "치료"또는 "치료하지 않음"인 경우, 의사는 두 조치의 결과를 고려하고 균형을 져야합니다. 결과의 측정 방법은 환자 자신의 희망, 연령, 삶의 질 및 기타 여러 가지 사항에 따라 달라질 수 있습니다. 손실 기능의 선택은 복잡하고 깊이 개인적 일 수 있습니다. 일반적으로 통계 학자에게 맡겨서는 안됩니다! $W$

그렇다면 우리가 알고 싶은 한 가지는 손실이 변경 될 때 최상의 절차 선택 이 어떻게 변할 것인가하는 것입니다. 많은 일반적인 실제 상황에서 어떤 절차가 가장 적합한 지 변경하지 않고도 특정 양의 변형을 견딜 수 있음이 밝혀졌습니다. 이러한 상황에는 다음과 같은 조건이 있습니다.

결정 공간은 볼록한 세트입니다 (종종 숫자 간격). 즉, 두 결정 사이에있는 모든 값도 유효한 결정입니다.
최선의 결정이 내려지고 그렇지 않으면 증가 할 때 손실은 0이됩니다.
손실은 결정의 차별화 된 기능입니다 (적어도 국부적으로 최상의 결정에 가깝습니다). 이는 연속적임을 의미하며 손실 과 같은 방식으로 않으며 결정이 최선의 결정에 가까워지면 상대적으로 거의 변하지 않음 을 의미합니다. $0-1$

이러한 조건이 유지되면 위험 기능 비교와 관련된 일부 합병증이 사라집니다. 의 차별화 성과 볼록성은 Jensen의 불평등 을 적용 하여 $W$

(1) 무작위 절차를 고려할 필요가 없다 [Lehmann, corollary 6.2].

(2) 하나의 절차 가 그러한 하나의 대해 최상의 위험을 갖는 것으로 간주 된다면 , 그것은 충분한 통계량 에 의존 하고 적어도 그러한 모든 위험 함수 를 갖는 절차 로 개선 될 수있다 [키퍼, p. 151]. $t$ $W$ $t^{*}$ $W$

예를 들어, 가 평균 (및 단위 분산)를 갖는 정규 분포 세트 라고 가정 합니다. 이것은 모든 실수의 세트로 를 식별 하므로, (오용하는 표기법) 또한 " "를 사용하여 에서 평균 분포를 식별합니다 . 를 이러한 분포 중 하나에서 크기가 인 iid 표본 이라고합시다 . 목표가 를 추정하는 것이라고 가정하십시오 . 이것은 모든 가능한 값인 (임의의 실수)로 결정 공간 를 식별합니다 . 시키는 임의의 결정을 지정, 손실 함수이다 $\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

하여 경우에만, . 앞의 가정은 (테일러 정리를 통해) $W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

일정한 양수 입니다. 합니다 (표기법 작은-O " "모든 기능 수단 의 한계 값 인 으로 .) 전술 한 바와 같이, 우리는 재조정 자유롭게 만들려면 . 이 패밀리 경우 작성된 의 평균은 충분한 통계량입니다. (키퍼에서 인용) 이전 결과 말한다 임의 추정기 어떤 임의의 함수가 될 수있는, 변수 하나의 이러한 좋다 $w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ 는 에 따라서 만 추정기로 변환 될 수 있으며, 이는 적어도 그러한 모두에 대해 좋다 . $\bar x$ $W$

이 예제에서 수행 된 것은 일반적입니다. 원래 변수 의 랜덤 화 된 함수로 구성된 매우 복잡한 가능한 프로 시저 세트가 단일 변수 의 비 랜덤 화 된 함수 로 구성된 훨씬 간단한 프로 시저 세트로 축소되었습니다 ( 또는 충분한 통계가 다변량 인 경우에는 최소한 더 적은 수의 변수). 그리고 의사 결정자의 손실 기능이 정확히 무엇인지 걱정하지 않고 볼록하고 차별화 할 수 있다면 가능합니다. $n$

가장 간단한 손실 기능은 무엇입니까? 물론 나머지 항을 무시하는 것은 순수하게 이차 함수로 만듭니다. 이 같은 클래스의 다른 손실 함수에는 거듭 제곱 보다 큽니다 (예 : 및 와 같은 문제), 등. $z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

파란색 (위) 곡선은 를, 빨간색 (아래) 곡선은 냅니다. 파란색 곡선도 최소값이 이고, 구별 가능하고 볼록하기 때문에 2 차 손실 (빨간색 곡선)이 즐기는 통계적 절차의 많은 훌륭한 속성이 파란색 손실 함수에도 적용됩니다 $2(\exp(|z|)-1-|z|)$ $z^2$ $0$ (전세계 지수 함수 임에도 불구하고). 2 차 함수와 다르게 동작합니다).

이러한 결과는 (분명히 부과 된 조건에 의해 제한 있지만) 차 손실이 통계 이론과 실천의 유비쿼터스 왜 도움 설명 : 제한된 범위, 그것은을위한 분석적으로 편리한 프록시 어떤 볼록 미분 손실 함수.

2 차 손실이 결코 유일하게 고려되는 손실이 아닙니다. 실제로 리먼은 다음과 같이 썼습니다.

볼록 손실 함수는 추정 문제를 여러 번 단순화시키는 것으로 나타났습니다. 그러나 그러한 손실 함수가 현실적 일 수 있는지 궁금 할 것이다. 경우 모든 잃은 후, 당신은하지 잃게 더 이상 할 수 있습니다 부정확의 측정하지만 실제 단지 나타낸다 (예를 들어, 금융) 손실, 하나는 이러한 모든 손실이 경계하는 주장 할 수있다. ... $W(F, d)$

... [F] 최근에 증가하는 손실 함수는 추정 된 분포의 꼬리 거동에 대한 가정에 민감한 경향이있는 추정기로 이어지며, 이러한 가정은 일반적으로 정보가 거의 없기 때문에 그리 많지 않습니다. 신뢰할 수 있습니다.

제곱 오차 손실에 의해 생성 된 추정기는 종종 이러한 점에서 불편하게 민감하다는 것이 밝혀졌다.

[Lehman, 섹션 1.6; 표기법이 약간 변경되었습니다.]

대체 손실을 고려하면 양자화 회귀, M 추정기, 강력한 통계 등 의 다양한 가능성 이이 결정 이론적 방식으로 구성되고 대체 손실 함수를 사용하여 정당화 될 수 있습니다. 간단한 예는 백분위 수 손실 함수를 참조하십시오 .

참고 문헌

Jack Carl Kiefer, 통계적 추론 소개. Springer-Verlag 1987.

EL Lehmann, 포인트 추정 이론 . 와일리 1983.

— 우버
소스

이 거리 메트릭의 기하학적 특성은 사용하기 쉽습니다.

물론 대부분의 문제에 대한 분석 솔루션이 있다면 더 쉬운 수학입니다.

— 분석자
소스

좀 더 정교하게 만들 수 있을까요?

— 팀

@Tim, 2 차 부등식과 2 차 형태의 수학적 속성이 떠 올랐습니다 ...

— Analyst

삼각형 불평등은 모든 거리 측정법에 대해 존재합니다. 유클리드 거리 / 2 표준 / 제곱 차이 / MSE를 특이하게 만드는 것은 그것을 유지하는 큰 변형 세트 (모든 직교 행렬)입니다.

— Federico Poloni