최소 제곱의 경우 자연수를 향한 편차


14

왜 우리는 최소화하기 위해 노력합니까 x^2대신 최소화의 |x|^1.95|x|^2.05. 숫자가 정확히 2 여야하는 이유가 있거나 단순히 수학을 단순화하는 이점이있는 규칙입니까?

답변:


5

이 질문은 꽤 오래되었지만 실제로 여기에 표시되지 않는 답변이 있으며 다른 합리적인 힘이있는 동안 (일부 합리적인 가정 하에서) 제곱 오류가 정확한 이유를 제시합니다.

데이터가 이고 이 데이터를 관찰하기위한 확률 밀도 가 와 관련하여 최대이어야 한다는 점에서 데이터를 가장 잘 예측 하는 선형 (또는 기타) 함수 를 찾으십시오 ( 최대 가능성 추정 이라고 함 ). 우리는 데이터가 부여된다고 가정하면 표준 편차를 갖는 정규 분포 에러 항을 더한 후 이것은 f p f ( D ) fD=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)fσ p f ( D ) = n i = 1 1fσ

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
따라서 p_f (D)를 최대화하려면 \ sum_ {i = 1} ^ {n} (y_i-f (\ mathbf {x} _i)) ^ 2 즉, 제곱 오차 항의 합을 pf(D)최소화 하면됩니다.i=1n(yif(xi))2

순환 적으로 보인다. 왜 정규 분포 된 오차항을 가정해야 하는가?
Joe

@Joe 항상 그렇지는 않지만, 오차항에 대해 아는 유일한 것은 평균이 0이고 유한 한 절대 값을 갖는다는 것이 최대 엔트로피 가정이므로 알 수없는 모든 것을 견딜 수 있습니다. 실제로 가지고있는 오류 기능. 오차 분포에 대한 추가 정보가 있으면이를 사용하여보다 정확한 최대 우도 추정치를 찾을 수 있다고 가정합니다.

"오류 항에 대해 아는 유일한 것이 평균 0이고 유한 한 절대 절대 값이라면, 이것이 최대 엔트로피 가정입니다"-내가 본 최대 엔트로피 분포의 모든 유도는 Laplace 분포를 A (알려진) 유한 대한 maxent 분포는 가우스가 절대 값을 제곱 예상 한 A (알려진) 유한의 maxent 반면, 절대 값을 예상 하나의 예시로 볼 stats.stackexchange.com/questions/82410/...는 당신이 동의하지 인용을해야합니까 ?
Joe

당신은 알고 있습니다. 당신이 옳다고 가정하겠습니다. (어떤 이유로 내 의견을 편집하는 방법을 알 수는 없지만)

14

x ^ 2 이외의 규범을 최소화 할 수 없었던 이유는 없습니다. 예를 들어, 양자 회귀에 관해 쓰여진 책이 전부 있습니다. 예를 들어, | x | 중간 값으로 작업하는 경우 일반적으로 수행하기가 더 어렵고 오류 모델에 따라 좋은 추정량을 제공하지 않을 수 있습니다 (상황에서 저 분산 또는 편향 또는 낮은 MSE 추정기를 의미하는지 여부에 따라 다름).

왜 우리가 실수 값 모멘트보다 정수 모멘트를 선호하는지에 대한 주된 이유는 실수의 정수 제곱은 항상 실수를 초래하지만 음수가 아닌 정수 제곱은 복소수를 생성하므로 절대 값. 다시 말해서 실수 랜덤 변수의 3 번째 모멘트는 실제이지만 3.2 번째 모멘트는 반드시 실제가 아니므로 해석 문제가 발생합니다.

그 이외의...

  1. 랜덤 변수의 정수 모멘트에 대한 분석 식은 일반적으로 함수 또는 다른 방법을 생성하여 실제 모멘트보다 훨씬 쉽게 찾을 수 있습니다. 따라서이를 최소화하는 방법은 작성하기가 더 쉽습니다.
  2. 정수 모멘트를 사용하면 실제 모멘트보다 다루기 쉬운 표현이됩니다.
  3. (예를 들어) X의 절대 값의 1.95 번째 모멘트가 (예를 들어) X의 두 번째 모멘트보다 더 적합한 피팅 특성을 제공한다는 설득력있는 이유는 생각할 수 없습니다.
  4. L2 규범 (또는 제곱 오차)에 따라 도트 제품을 통해 기록 될 수있어 계산 속도가 크게 향상 될 수 있습니다. 또한 힐버트 공간 인 유일한 Lp 공간이기도합니다.

8

디스크립터 내에 남아있는 분산을 최소화하려고합니다. 왜 분산인가? 이 질문을 읽으십시오 ; 이것은 또한 오류가 정상적으로 분산된다는 (대부분 침묵) 가정과 함께 제공됩니다.

확장 :
두 가지 추가 인수 :

  1. 분산의 경우, 우리는 분산의 합이 상관되지 않은 표본에 대한 합의 분산과 같다는이 멋진 "법칙"이 있습니다. 오차가 사례와 상관 관계가 없다고 가정하면, 잔차를 최소화하는 것은 설명 된 분산을 최대화하는 데 간단하게 작용할 것입니다.

  2. 오차의 정규성을 가정하면 최소 제곱 오차 추정기는 최대 가능성입니다.


1
다른 스레드의 대답은 왜 2가 2에 매우 가깝지만 자연수가 아닌 다른 값보다 더 나은 가치인지 설명하지 않습니다.
Christian

나는 그렇게 생각한다. 여전히 대답을 확장하려고 노력할 것입니다.

따라서 오차가 정규 분포가 아니라 다른 레비 안정 분포에 따르면, 2와 다른 지수를 사용하면 돈을 지불 할 수 있습니까?
Raskolnikov

정규 분포는 알려진 분산에 대해 가장 "주의"분포임을 기억하십시오 (고정 분산을 갖는 모든 밀도 중에서 최대 엔트로피를 갖기 때문). 데이터에 의해 가장 많이 언급됩니다. 또는 다른 방법으로 같은 분산을 가진 "대규모"데이터 세트의 경우 "귀하"는 정규 분포와 다른 분포를 얻기 위해 엄청나게 "시도"해야합니다 .
확률

8

보통 최소 제곱에서 (A'A) ^ (-1) x = A'b에 대한 해는 제곱 오차 손실을 최소화하며 최대 우도 해입니다.

이 역사적인 경우에는 수학이 쉬웠 기 때문입니다.

그러나 일반적으로 사람들 은 지수, 물류, 코시, 라플라스, 후버 등과 같은 여러 가지 손실 함수를 최소화합니다 . 이보다 이국적인 손실 함수에는 일반적으로 많은 계산 리소스가 필요하며 일반적으로 폐쇄 형 솔루션이 없기 때문에 그들은 이제 더 대중화되기 시작했습니다.


1
상실의 아이디어를 소개하는 +1 (그러나 "지수"등이 아닌 분포 , 손실 함수가 아닌가?) 역사적으로 선형 손실은 1750 년에 공식적으로 개발 된 첫 번째 접근법이었으며,이를위한 간단한 기하학적 솔루션이있었습니다. Laplace가 1809 출판물에서이 지수와 이중 지수 분포 사이의 관계를 확립했다고 생각합니다 (MLE는 제곱 오차가 아닌 절대 오차를 최소화 할 것입니다). 따라서 제곱 손실은 MLE가 있고 수학적으로 쉬운 기준으로 고유하게 구별되지 않습니다.
whuber

그것들은 서로 다른 상황에서 분포와 손실 함수입니다.
Joe

이전 답변에서 너무 빨리 입력했습니다. 지수 손실은 부스트와 관련이 있습니다 (Friedman Hastie 및 Tibshirani의 부스팅 통계보기 참조). 분포보다는 손실, 로지스틱 회귀 코어는 로그 손실에 반응합니다. 절대 값 손실에 해당합니다. 따라서 대부분의 경우 매우 조잡했습니다. 지적 해 주셔서 감사합니다. 그러나 L1 손실에는 기하학적 솔루션이 있지만 분석적으로 닫히지 않았으므로 솔루션을 쉽게 호출 할 수는 없습니다.
Joe

1

내 이해는 오류를 최소화하려고하기 때문에 오류의 음의 차이의 합이 오류의 양의 차이의 합과 동일하지만 우리가하지 않은 상황에 처하지 않는 방법을 찾아야한다는 것입니다 좋은 적합을 찾았습니다. 우리는 오차의 차이의 합을 제곱하여 오차의 음의 차이와 양의 차이가 양의 값이됨을 의미합니다 ( ). 우리가 를 양의 정수 이외의 거듭 제곱으로 올렸다면 오류가 같은 부호를 갖지 않기 때문에이 문제를 해결하지 못하거나 정수가 아닌 무언가의 거듭 제곱을 제기하면 우리는 입력 할 것입니다 복소수의 영역.x1×1=1x

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.