모델을 피팅 할 때 일반적으로 SSE (Sum of Square Error)를 최소화하도록 선택하는 이유는 무엇입니까?


23

문제는 매우 간단합니다. 왜 선형 또는 비선형 데이터에 모델을 맞추려고 할 때 일반적으로 모델 매개 변수에 대한 추정값을 얻기 위해 오차 제곱의 합을 최소화하려고합니까? 최소화하기 위해 다른 목적 함수를 선택하지 않겠습니까? 기술적 인 이유로 2 차 함수는 다른 함수 (예 : 절대 편차의 합)보다 우수하다는 것을 이해합니다. 그러나 이것은 여전히 ​​설득력있는 답변이 아닙니다. 이 기술적 이유 외에, 특히 사람들이이 '유클리드 타입'거리 기능을 선호하는 이유는 무엇입니까? 그것에 대한 특별한 의미 나 해석이 있습니까?

내 생각의 논리는 다음과 같습니다.

데이터 집합이있는 경우 먼저 일련의 기능적 또는 분포 가정 (일부 모멘트 조건이지만 전체 분포는 아님)을 만들어 모델을 설정합니다. 모델에는 몇 가지 매개 변수가 있으며 (매개 변수 모델이라고 가정) 이러한 매개 변수를 일관되게 추정 할 수있는 방법을 찾아야합니다. 추정기의 분산이 낮고 다른 좋은 속성이 있기를 바랍니다. SSE 또는 LAD 또는 다른 목적 함수를 최소화하든 일관된 견적 도구를 얻는 방법이 다르다고 생각합니다. 이 논리에 따르면 사람들이 최소 제곱을 사용해야한다고 생각했습니다 .1) 모델의 일관된 견적을 생성합니다 .2) 내가 모르는 다른 것.

계량 경제학에서 우리는 선형 회귀 모형에서 오차 항이 예측 변수에 대해 0의 평균 조건을 가지고 있고 동질성과 오차가 서로 관련이 없다고 가정하면 제곱 오차의 합을 최소화하면 모형의 일관성있는 추정값을 얻을 수 있습니다 가우스-마코프 정리에 의해이 추정기는 BLUE입니다. 따라서 이것은 SSE가 아닌 다른 목적 함수를 최소화하도록 선택하면 모델 매개 변수의 일관된 추정값을 얻을 것이라는 보장이 없습니다. 이해가 정확합니까? 그것이 맞다면, 다른 목적 함수보다는 SSE를 최소화하는 것이 일관성에 의해 정당화 될 수 있는데, 이는 실제로 이차 함수가 더 좋다고 말하는 것보다 낫습니다.

실제로, 나는 사람들이 먼저 완전한 모형, 예를 들어, 오차 항에 대한 분포 가정 (모멘트 가정)을 명확하게 지정하지 않고 제곱 오차의 합을 직접 최소화하는 많은 경우를 보았습니다. 그런 다음이 방법을 사용하는 사용자는 제곱 거리 함수 측면에서 데이터가 '모델'(모델 가정이 불완전하기 때문에 따옴표를 사용하는 방법)에 얼마나 가까운 지 확인하려고합니다.

관련 질문 (이 웹 사이트와도 관련)은 교차 검증을 사용하여 다른 모델을 비교하려고 할 때 SSE를 다시 판단 기준으로 사용합니까? 즉, SSE가 가장 적은 모델을 선택 하시겠습니까? 왜 다른 기준이 아닌가?


답변:


14

귀하의 질문은 사이트의 다른 많은 질문과 유사하지만이 질문의 측면 (예 : 일관성에 대한 강조)은 중복 질문에 충분히 가깝지 않다고 생각합니다.

최소화하기 위해 다른 목적 함수를 선택하지 않겠습니까?

실제로는 어떻습니까? 목표가 최소 제곱과 다르면 대신 목표를 해결해야합니다!

그럼에도 불구하고 최소 제곱에는 많은 훌륭한 속성이 있습니다 ( 특히 많은 사람들이 원하는 추정 수단 과의 친밀한 연결 및 새로운 아이디어를 가르치거나 구현할 때 가장 먼저 선택하는 단순함).

또한 많은 경우 사람들은 명확한 객관적인 기능을 가지고 있지 않으므로 쉽게 구할 수 있고 널리 이해되는 것을 선택하는 것이 유리합니다.

즉, 최소 제곱에는 좋지 않은 속성 (예 : 특이 치에 대한 감도)이 있으므로 때로는 사람들이 더 강력한 기준을 선호합니다.

제곱 오차를 최소화하면 모형 모수를 일관되게 추정 할 수 있습니다.

최소 제곱은 일관성을 요구 하지 않습니다 . 일관성은 그다지 높은 장애물이 아니며 많은 견적자가 일관됩니다. 사람들이 실제로 사용하는 거의 모든 추정기는 일관됩니다.

Gauss-Markov 정리에 따르면이 추정값은 BLUE입니다.

그러나 모든 선형 추정값이 나쁜 상황 (예를 들어, 극단적 인 두꺼운 꼬리에서와 같이)에서 가장 좋은 이점은 그리 크지 않습니다.

SSE가 아닌 다른 목적 함수를 최소화하기로 선택한 경우 모델 매개 변수의 일관된 추정값을 얻지 못할 수도 있습니다. 이해가 정확합니까?

일관된 추정값을 찾기가 어렵지 않으므로 특히 최소 제곱의 타당성이 아닙니다

교차 검증을 사용하여 다른 모델을 비교하려고 할 때 SSE를 판단 기준으로 사용하는 이유는 무엇입니까? [...] 왜 다른 기준이 아닌가?

당신의 목표가 다른 것에 더 잘 반영된다면, 실제로 왜 그렇지 않습니까?

최소 제곱보다 다른 목적 함수를 사용하는 사람들이 부족하지 않습니다. M 추정, 최소 트림 추정기, Quantile 회귀 및 사람들이 LINEX 손실 함수를 사용할 때 나타납니다.

데이터 집합이있을 때 먼저 모델을 설정하는 것, 즉 일련의 기능적 또는 분포 가정을 설정한다고 생각했습니다. 모델에는 몇 가지 매개 변수가 있습니다 (매개 변수 모델 인 경우).

아마도 기능적 가정의 매개 변수는 당신이 추정하려고하는 것입니다.이 경우, 기능적 가정은 당신이 가장 제곱 (또는 다른 것)을하는 것입니다 . 그들은 기준을 결정하지 않고 기준이 추정하는 것입니다.

반면에 분포 가정이 있다면 더 적합한 목적 함수에 대한 많은 정보가 있습니다. 예를 들어, 모수의 효율적인 추정치를 원할 것입니다. MLE를 지향하는 경향이 있습니다 (어쩌면 경우에 따라 강화 된 프레임 워크에 포함되어 있음).

그런 다음 이러한 매개 변수를 일관되게 추정 할 수있는 방법을 찾아야합니다. SSE 또는 LAD 또는 다른 목적 함수를 최소화하든

LAD는 Quantile Estimator입니다. 최소 제곱과 같은 방식으로 예상되어야하는 조건에서 추정해야하는 모수의 일관된 추정값입니다. (최소 제곱으로 일관성을 나타내는 것을 보면 많은 다른 공통 추정량에 대한 결과가 있습니다. 사람들은 일관성이없는 추정량을 거의 사용하지 않으므로 추정값이 널리 논의 되지 않으면 불일치에 대해 이야기 하지 않는 한 거의 같습니다 확실히 일관성이 있습니다. *)

* 즉, 일관성은 반드시 필수 속성은 아닙니다. 결국, 내 샘플의 경우 특정 샘플 크기가 있지만 무한한 경향이있는 샘플 크기 시퀀스는 아닙니다. 상기 특성은 무엇인가 문제 내가 가지고하지 어떤 무한히 큰 나는 것을 이 없어 못 볼 것은 . 그러나 불일치가있을 경우 훨씬 더 많은주의가 필요합니다. = 20에 좋은 추정기가 있을 수 있지만 = 2000에 끔찍할 수 있습니다 . 일관성있는 추정기를 사용하려면 어떤 의미에서 더 많은 노력이 필요합니다.n n nnnnn

지수의 평균을 추정하기 위해 LAD를 사용하는 경우, 그 평균과 일치하지는 않지만 (추정치의 사소한 스케일링이 될지라도) 지수의 중앙값을 추정하기 위해 최소 제곱을 사용하는 경우 동일한 토큰으로 , 그것은 일관되지 않을 것입니다 (다시, 사소한 크기 조정은 그것을 수정합니다).


내 우려를 명확하게 표현하지 않은 것 같습니다. 데이터 세트가있을 때 먼저 모델을 설정하는 것, 즉 일련의 기능적 또는 분포 가정을 설정한다고 생각했습니다. 모델에는 몇 가지 매개 변수가 있으며 (매개 변수 모델 인 경우) 이러한 매개 변수를 일관되게 추정하는 방법을 찾아야합니다. SSE 또는 LAD 또는 다른 목적 함수를 최소화하든 상관없이 추정값을 얻는 다른 방법이라고 생각합니다. 이 논리에 따르면 사람들이 최소 제곱을 사용해야한다고 생각했습니다. 1) 모델의 일관된 추정량을 생성합니다. 2) 다른 것
KevinKim

아마도 기능적 가정의 매개 변수는 당신이 추정하려고하는 것입니다.이 경우 기능적 가정은 당신이 가장 제곱하는 (또는 다른 것)하는 것입니다. 그들은 기준을 결정하지 않습니다. 반면에 분포 가정이 있다면 더 적합한 목적 함수에 대한 많은 정보가 있습니다. 예를 들어, 모수의 효율적인 추정치를 원할 것입니다. MLE를 지향하는 경향이 있습니다 (어쩌면 경우에 따라 강화 된 프레임 워크에 포함되어 있음).
Glen_b-복지국 모니카

이 답변은 내 사고 방식에 맞습니다. 그러나 여전히 의문이 있습니다. '기준을 결정하지 않습니다'는 무슨 의미입니까? 이것은 예를 들어, 선형 회귀의 계량 경제학 101에서 기능적 (분포가 없음) 가정 하에서 일관된 추정량을 얻기 위해 ols를 사용해야하며, 임의의 목적 함수를 사용하여 최소화 할 수 없다는 것을 의미합니까? 거기에서 일관된 추정기를 도출하기위한 보증?
KevinKim

"결정하지 않음"에 대한 답변을 확대하겠습니다. 일관성 : 나는 내 대답에 반대를 진술했다. 다시 말하겠습니다. 최소 제곱은 일관성을위한 요구 사항 이 아닙니다 . 여기에는 방금 언급 한 상황이 포함됩니다. 일관된 대안 추정기의 무한대가 있습니다. 사람들이 실제로 사용하는 거의 모든 추정기는 일관됩니다. 더 명확하게 답변을 편집하겠습니다.
Glen_b-복지 주 모니카

업데이트 된 답변, 마지막 단락, 일부 모델의 경우 모델 매개 변수에 대해 일관된 매개 변수를 생성하지 않는 몇 가지 방법이 있습니다. 어쨌든 해당 방법을 적용 할 수 있지만 compter는 몇 가지 숫자를 제공합니다. 따라서 모델 사람들이 모델의 매개 변수에 대한 추정량을 도출하기 위해 사람들이 빌드하는 모델의 기술적 장점에 따라 JUST를 최적화하기 위해 객관적인 함수를 임의로 선택할 수 없다고 말할 수 있습니까?
KevinKim

5

통계 질문을했는데 제어 시스템 엔지니어의 대답이 다른 방향에서 깨달을 수있는 계기가되기를 바랍니다.

제어 시스템 엔지니어링을위한 "정식"정보 흐름 양식은 다음과 같습니다. 여기에 이미지 설명을 입력하십시오

"r"은 참조 값입니다. 오류 "e"를 생성하기 위해 출력 "y"의 "F"변환과 합산됩니다. 이 오류는 제어 전송 기능 "C"에 의해 설비 시스템 "P"에 대한 제어 입력으로 변환 된 제어기의 입력입니다. 임의의 식물에 적용하기에 충분히 일반적이어야합니다. "식물"은 순항 제어를위한 자동차 엔진 또는 역 진단의 입력 각도 일 수있다.

다음 논의에 적합한 현상학을 가진 알려진 전달 함수, 현재 상태 및 원하는 종료 상태를 가진 식물이 있다고 가정 해 봅시다. ( 표 2.1 pp68 ) 입력이 다른 시스템이 초기 상태에서 최종 상태로 이동할 수있는 무한한 고유 경로가 있습니다. 교과서 제어 엔지니어의 "최적 접근"에는 시간 최적 ( 최단 시간 / 방뱅 ), 거리 최적 (최단 경로), 힘 최적 (최저 최대 입력 크기) 및 에너지 최적 (최소 총 에너지 입력)이 포함됩니다.

무한한 수의 경로가있는 것처럼 무한한 수의 "최적"이 있습니다. 각 경로는 해당 경로 중 하나를 선택합니다. 하나의 경로를 선택하고 그것이 최고라고 말하면 암시 적으로 "선도 측정"또는 "최적 측정"을 선택하는 것입니다.

개인적으로는 L-2 표준 (일명 에너지 최적, 일명 최소 오차)과 같은 사람들은 간단하고 설명하기 쉽고 실행하기 쉬우 며 작은 오류보다 큰 오류에 대해 더 많은 작업을 수행 할 수 있기 때문에 바이어스가 0 인 상태로 둡니다. 분산이 최소화되고 바이어스가 제한되지만 제로가 아닌 h- 무한도 표준을 고려하십시오. 그것들은 꽤 유용 할 수 있지만 설명하기가 더 복잡하고 코드 작성이 더 복잡합니다.

L2- 노름 (일명 에너지 최소화 최적 경로, 일명 최소 제곱 오차 적합)은 쉽고, 게으른 의미에서 "큰 오류는 더 나쁘고 작은 오류는 나쁘지 않다"는 휴리스틱에 적합하다고 생각합니다. 말 그대로 이것을 공식화하는 수많은 알고리즘 방법이 있지만, 제곱 오차는 가장 편리한 방법 중 하나입니다. 대수 만 필요하므로 더 많은 사람들이 이해할 수 있습니다. 그것은 (인기있는) 다항식 공간에서 작동합니다. 에너지 최적화는 인식 된 세계를 구성하는 많은 물리학과 일치하므로 "친숙한 느낌"입니다. 계산하는 것이 매우 빠르며 메모리에서 너무 끔찍한 것은 아닙니다.

시간이 더 걸리면 그림, 코드 또는 참고 문헌을 넣고 싶습니다.


1

저는 모형을 피팅 할 때 가 주요 적합도 (GoF) 통계 인직접 (음수) 관계 가 있기 때문에 일반적으로 제곱 오차 ( ) 의 합계 를 최소화하도록 선택 합니다. 다음과 같이 모델의 경우 ( 는 총 제곱합 ) :S S E R 2 S S TSSESSER2SST

R2=1SSESST

조정 된 가 표본 크기 및 계수 수 ( 또는 참조)의 수정으로 인해 더 나은 ( 편견없는 ) GoF 통계 인 이유에 대한 설명을 생략하면 이 연결 이 계열 로 중요합니다. 통계는 근 평균 제곱 오차 ( ) 와 같이 적합 대 절대 측정상대 측정 을 나타내는 통계입니다 .R 2 R M S ER2R2RMSE

또한, 사실 함께 독립 변수 모두에 의해 설명 될 수 종속 변수의 차이의 비율과 동일하다은하게 간접적 따라서하고, 의 대책 설명력 ( 또는 모델의 예측력 ). 실제로 예측 모델의 경우 통계 예측 잔차 제곱합 ( ) 과 유사한 것을 사용하는 것이 좋습니다 . 상세한 내용은 이 포스트이 게시물 게시물의 끝에서 질문에 관련된.R 2 S S E S S E P R E S SR2R2SSESSEPRESS

귀하의 주된 질문을 결론 짓고 대답하면서, 우리는 가 문제의 통계 모델의 설명 적 또는 예측력최대화하는 것과 동일하기 때문에 보통 최소화 한다고 생각합니다 .SSE


2
모집단 가 0 일 조정 된 는 편향되지 않지만 일반적으로 편향되지 않습니까? 예를 들어 모집단에서 일부 경사가 0이 아닌 경우? R 2R2R2
Silverfish

R2R2

R2

R2

0

최소 제곱 피팅 대신 최대 오류를 최소화하는 것을 볼 수도 있습니다. 이 주제에 대한 충분한 문헌이 있습니다. 검색어로 "Chebyshev"다항식의 "Tchebechev"를 사용해보십시오.


1
최대 값은 L 무한대 표준입니다. Nutonian / Formulize / Eureqa를 보면 사 분위 간 절대 오류, 힌지 손실 오류, ROC-AUC 및 부호있는 차이를 포함한 멋진 비용 기능 (오류 형식) 동물원이 있습니다. formulize.nutonian.com/documentation/eureqa/general-reference/...
EngrStudent - 분석 재개 모니카

0

선형 대수 영역 내에있을 수 있기 때문에 사람들이 사각형을 사용하는 것처럼 보이며 더 강력한 볼록 최적화와 같은 더 복잡한 다른 항목을 건드리지 않지만 멋진 폐쇄 형 솔루션이없는 솔버를 사용하게합니다.

또한 볼록 최적화라는 이름을 가진이 수학 영역의 아이디어는 많이 퍼지지 않았습니다.

"... 왜 우리는 품목의 제곱에 관심을 기울여야합니까? 우리가 분석 할 수 있기 때문에 정직하게 말하면 ... 에너지에 해당한다고 생각하고 빨리 구입하면 ..."- https : / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

또한 Stephen P. Boyd는 2008 년 사람들이 망치와 임시를 사용한다고 설명합니다. L20, 01:05:15- https ://youtu.be/qoCa7kMLXNg?t=3916


0

참고 사항 :

p(t|x,w,β)=N(t|y(x,w),β1)
{x,t}w
p(t|x,w,β)=n=1NN(tn|y(xn,w),β1).
β2=1{와이(엑스,)}2+2β2(2π)
- 1β
12=1{와이(엑스,)}2.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.