제곱 오차를 최소화하는 것이 절대 오차를 최소화하는 것과 같습니까? 왜 제곱 오차가 후자보다 더 인기가 있습니까?


38

선형 회귀 를 수행하여 많은 데이터 포인트 에 고전적인 접근 방식으로 제곱 오차가 최소화됩니다. 나는 제곱 오차를 최소화하는 것이 절대 오차를 최소화하는 것과 동일한 결과를 산출 한다는 질문에 오랫동안 당황했습니다 . 그렇지 않다면 왜 제곱 오차를 최소화하는 것이 더 낫습니까? "객관적인 기능이 구별 가능하다"이외의 다른 이유가 있습니까?y=ax+b(x1,y1),(x2,y2),...,(xn,yn)

제곱 오차는 모델 성능을 평가하는데도 널리 사용되지만 절대 오차는 덜 일반적입니다. 왜 절대 오차보다 제곱 오차가 더 일반적으로 사용됩니까? 미분을 취하지 않는 경우 절대 오차를 계산하는 것이 제곱 오차를 계산하는 것만 큼 쉽습니다. 왜 제곱 오차가 그렇게 널리 퍼져 있습니까? 유병률을 설명 할 수있는 독특한 장점이 있습니까?

감사합니다.


항상 일부 최적화 문제가 있으며 최소 / 최대 값을 찾기 위해 그라디언트를 계산할 수 있기를 원합니다.
Vladislavs Dovgalecs

11
x2<|x|에 대한 와경우 . 따라서, 제곱 오차는 절대 오차보다 큰 오차를 더 많이 부과하고 절대 오차보다 작은 오차를 더 많이 용서합니다. 이것은 많은 사람들이 올바른 행동 방식이라고 생각하는 것과 잘 일치합니다. x(1,1)x2>|x||x|>1
Dilip Sarwate

답변:


46

제곱 오차 (MSE)를 최소화하는 것은 오차의 절대 편차 (MAD)를 최소화하는 것과 확실히 다릅니다. MSE는 조절 된 의 평균 반응을 제공하는 반면 MAD는 조절 된 의 중간 반응을 제공합니다 .yxyx

역사적으로 Laplace는 원래 최대 관측 오차를 모델 의 정확성 을 측정 한 것으로 간주했습니다 . 그는 곧 MAD 를 고려하기 시작 했다. 두 상황을 정확하게 해결할 수 없기 때문에 곧 미분 MSE를 고려했습니다. 자신과 가우스는 (이는 동시에)이 문제에 대한 폐쇄 형 솔루션 인 일반 방정식을 도출했습니다. 요즘에는 선형 프로그래밍을 통해 MAD를 쉽게 해결할 수 있습니다. 그러나 잘 알려진 바와 같이 선형 프로그래밍에는 폐쇄 형 솔루션이 없습니다.

최적화 관점에서 볼 때 둘 다 볼록 함수에 해당합니다. 그러나, MSE는 차별화가 가능하여, 구배 기반 방법을 허용하여, 비 분화 대응 방법보다 훨씬 효율적이다. MAD는 에서 구별 할 수 없습니다 .x=0

또 다른 이론적 이유는 베이지안 설정에서 모델 매개 변수의 균일 한 사전을 가정 할 때 MSE가 정규 분포 오차를 산출하고, 이는 방법의 정확성을 증명하는 것으로 간주됩니다. 이론가들은 경험적 사실이라고 믿었 기 때문에 정규 분포를 좋아하는 반면, 이론적 결과를 믿기 때문에 실험자들은 그것을 좋아합니다.

MSE가 널리 받아 들일 수있는 마지막 이유는 그것이 유클리드 거리 (실제로 유클리드 바 나치 공간에 대한 투영 문제의 해결 책임)를 기반으로하기 때문에 우리의 기하학적 현실을 고려할 때 매우 직관적이기 때문입니다.


1
Laplace에 대한 참조로 (+1)!
시안

2
"이론 자들은 경험적 사실이라고 믿었 기 때문에 정규 분포를 좋아하지만 실험적인 것은 이론적 결과를 믿기 때문에 그것을 좋아한다." -나는 그것을 좋아한다. 그러나 가우스 분포에 대한 직접적인 물리학 응용 프로그램도 없습니까? 그리고 최대 엔트로피 분포에 관한
것들도 있습니다

8
@ssdecontrol 저는 에피 그램이 백여 년 전 Henri Poincaré에 의한 것이라고 생각합니다. Mt Lippmann, 자동차 체험가, 상상력을 갖춘 가장 까다로운 수학, 기타 수학 전문가가 가장 빠른 실험을 해보지 못하고 있습니다. Lippman은 실험 론자들은 그것이 수학적 이론이라고 생각하고 수학자들은 그것이 실험적으로 결정된 사실이라고 믿고 있기 때문에 모든 사람이 [오류가 정상적으로 분포된다는 것을 확신합니다. 발 Calcul probabilités DES (2 에드. 1912), P. 171
Dilip Sarwate

1
다음은 수학 답변입니다. 독립 변수 X의 데이터 행렬과 열 행렬 Y가있는 경우, 속성 Xb = Y 인 행렬 b가 있으면 우리는 soln을 갖습니다. 일반적으로 우리는 할 수 없으며 정확한 솔루션에 가장 가까운 b를 원합니다. 수학으로서 이것은 해결하기가 '쉽습니다'. X의 열 공간에 대한 Y의 투영입니다. 투영 및 수직 등의 개념은 메트릭에 따라 다릅니다. 일반적인 유클리드 L2 메트릭은 우리가 익숙한 것으로 최소 제곱을 제공합니다. mse의 최소화 속성은 우리가 계획을 가지고 있다는 사실을 다시 말한 것입니다.
aginensky

1
나는 우선 순위가 Gauss와 Legendre 사이에 있다고 생각했다. 또한 Laplace의 증거가 우수하다고 간주됩니다. 이것에 대한 언급이 있습니까?
PatrickT

31

다른 설명으로 다음 직관을 고려하십시오.

오류를 최소화 할 때 이러한 오류를 어떻게 처벌 할 것인지 결정해야합니다. 실제로 오류를 처벌하는 가장 간단한 방법은 linearly proportional페널티 기능 을 사용하는 것 입니다. 이러한 함수를 사용하면 평균과의 각 편차에 비례하는 해당 오류가 발생합니다. 두 번 까지 평균으로부터 그러므로 초래 두 번 페널티.

보다 일반적인 접근 방식은 squared proportional평균 편차와 해당 페널티 간의 관계 를 고려하는 것 입니다. 이 반드시 있다는 것 더는 당신이 떨어져 평균에서이다, (가) 비례 적으로 더 당신이 처벌됩니다. 이 페널티 함수를 사용하면 특이 치 (평균에서 멀리 떨어져 있음)가 평균 근처의 관측치보다 비례 적으로 더 유익한 것으로 간주 됩니다.

이를 시각화하기 위해 간단히 페널티 함수를 플로팅하면됩니다.

MAD 및 MSE 페널티 기능 비교

특히 회귀 추정 (예 : OLS)을 고려할 때 다른 페널티 함수는 다른 결과를 산출합니다. linearly proportional페널티 기능을 사용하면 회귀는 squared proportional페널티 기능을 사용할 때보 다 이상치에 가중치를 덜 할당 합니다. 따라서 MAD (Median Absolute Deviation)는 보다 강력한 추정기로 알려져 있습니다 . 일반적으로, 강력한 추정기는 대부분의 데이터 요소에 적합하지만 특이 치를 '무시'합니다. 이에 비해 최소 제곱 피팅은 이상 값을 향해 더 많이 당겨집니다. 비교를위한 시각화는 다음과 같습니다.

강력한 추정값과 OLS 비교

이제는 OLS가 거의 표준이지만 다른 페널티 기능도 사용 중입니다. 예를 들어, 회귀에 대해 다른 페널티 ( '무게'라고도 함) 기능을 선택할 수 있는 Matlab의 견고성 함수를 살펴볼 수 있습니다. 페널티 기능에는 Andrews, Bisquare, Cauchy, Fair, Huber, Logistic, Ols, talwar 및 welsch가 포함됩니다. 해당 표현은 웹 사이트에서도 찾을 수 있습니다.

나는 그것이 페널티 함수에 대해 조금 더 직관을 얻는 데 도움이되기를 바랍니다 :)

최신 정보

Matlab을 가지고 있다면 Matlab의 robustdemo 를 사용하는 것이 좋습니다. 일반적인 최소 제곱과 강력한 회귀를 비교하기 위해 특별히 빌드되었습니다.

강건한

데모를 사용하면 개별 점을 끌어서 일반 최소 제곱과 강력한 회귀 모두에 대한 영향을 즉시 확인할 수 있습니다 (강의 목적에 적합합니다).


3

다른 답변에서 설명했듯이, 제곱 오차를 최소화하는 것은 절대 오차를 최소화하는 것과 다릅니다.

제곱 오차를 최소화하는 것이 바람직한 이유는 큰 오차를 더 잘 방지하기 때문입니다.

직원의 급여 담당자가 실수로 총 10 명의 직원에게 각각 필요한 것보다 50 달러 적은 금액을 지불한다고 가정 해보십시오 . 그것은 $ 500의 절대 오류입니다 . 부서가 직원 명에게 $ 500를 적게 지불하면 $ 500 의 절대 오류이기도합니다 . 그러나 제곱 오차의 관점에서 25000 대 250000입니다.

제곱 오차를 사용하는 것이 항상 좋은 것은 아닙니다. 데이터 수집 오류로 인해 극한 이상 값을 가진 데이터 세트가있는 경우, 제곱 오차를 최소화하면 절대 오차를 최소화하는 것보다 극한 이상 값에 적합하게됩니다. 즉, 제곱 오차를 사용하는 것이 일반적으로 더 좋습니다.


4
제곱 오차를 최소화하는 것이 바람직한 이유는 큰 오차를 더 잘 방지하기 때문입니다. -왜 큐브를하지 않습니까?
Daniel Earwicker

@DanielEarwicker Cubed는 잘못된 방향으로 빼기 오류를 만듭니다. 따라서 절대적인 큐브 오류이거나 균일 한 힘을 유지해야합니다. 더 높은 제곱 (또는 실제로 비 다항식 페널티 함수) 대신 제곱을 사용하는 "좋은"이유는 없습니다. 계산하기 쉽고 최소화하기 쉽고 작업을 수행합니다.
Atsby

1
물론 나는 더 높은 짝수라고 말 했어야했다! :)
Daniel Earwicker

이것은 (현재) 공표가 없지만 (현재) 15 표를 얻은 답변과 동일하지 않습니까 (즉, 이상 치가 더 효과적 임)? 투표가 잘못되었거나 주요 정보가 누락되어 투표에 참여하지 않습니까? 아니면 예쁜 그래프가 없기 때문에? ;-)
대런 쿡

@DarrenCook 저는 통계에 대한 "현대적인"접근 방식이 OLS보다 MAD를 선호한다고 생각합니다.
Atsby

2

이론적으로는 모든 종류의 손실 기능을 사용할 수 있습니다. 절대 및 제곱 손실 기능은 가장 인기 있고 가장 직관적 인 손실 기능입니다. 이 위키 백과 항목 에 따르면

일반적인 예는 "위치"추정과 관련이 있습니다. 일반적인 통계적 가정에서 평균 또는 평균은 제곱 오차 손실 함수에서 발생하는 예상 손실을 최소화하는 위치를 추정하기위한 통계이며, 중앙값은 절대 차이 손실 함수에서 발생하는 예상 손실을 최소화하는 추정기입니다. 다른 일반적이지 않은 상황에서는 여전히 다른 추정기가 최적입니다.

Wikipedia 항목에서 설명했듯이 손실 함수의 선택은 대상 객체와의 편차를 어떻게 평가 하느냐에 달려 있습니다. 모든 편차가 부호와 상관없이 동일하게 나쁘면 절대 손실 함수를 사용할 수 있습니다. 최적에서 멀어 질수록 편차가 더 심해지고 편차가 양수인지 음수인지 상관하지 않으면 제곱 손실 함수가 가장 쉬운 선택입니다. 그러나 위의 손실 정의 중 어느 것도 문제에 적합하지 않은 경우 (예 : 작은 편차가 큰 편차보다 더 나쁘기 때문에) 다른 손실 함수를 선택하고 최소화 문제를 해결하려고 할 수 있습니다. 그러나 솔루션의 통계 속성을 평가하기 어려울 수 있습니다.


약간의 세부 사항 : "기호와 상관없이 모든 편차가 똑같이 나쁘다면 ..": MAD 함수는 오차를 선형 비례 적으로 페널티합니다. 따라서 오류는 두 배로 페널티가 두 배가되므로 오류는 '동일하게 나쁘지'않지만 '비례 적으로 나쁘다'입니다.
Jean-Paul

@ Jean-Paul : 네 말이 맞아. 나는 그런 식으로 의미했다. "똑같이 나쁘다"라고 말하고 싶은 것은 MAD의 기울기가 일정하고 MSE의 기울기가 오류와 함께 선형으로 증가한다는 것입니다. 따라서 두 오차의 차이가 최적의 거리와 얼마나 떨어져 있더라도 일정하다면 MSE에서도 마찬가지입니다. 나는 그것이 내가 말하고 싶은 것을 조금 더 이해할 수 있기를 바랍니다.
kristjan

-1

짧은 답변

  1. 아니
  2. 평균은 중앙값보다 더 흥미로운 통계적 속성을 갖습니다.

10
"보다 흥미로운 통계적 속성"을 적용 할 수 있다면 좋을 것입니다.
Momo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.