OLS 선형 회귀 분석의 비용 함수


31

기계 학습에 대한 Coursera의 Andrew Ng가 제공 한 선형 회귀에 대한 강의와 약간 혼동됩니다. 거기서 그는 다음과 같이 제곱합을 최소화하는 비용 함수를 제공했습니다.

12mi=1m(hθ(X(i))Y(i))2

나는 1을 이해12 에서 온. 제곱 항에서 도함수를 수행 할 때 제곱 항의 2가 반으로 취소되도록 그렇게했다고 생각합니다. 그러나 나는1을이해하지 못한다.1m 왔습니다.

왜 우리는해야합니까 1m ? 표준 선형 회귀 분석에서는이를 가지고 있지 않으며 단순히 잔차를 최소화합니다. 왜 여기에 필요한가요?


1 / 2m은 데이터 포인트 당 평균 오류를 찾는 데 도움이되고 m은 전체 관측치 또는 관측치 수를 나타냅니다.
Krishnan Achary

답변:


33

아시다시피, 선형 회귀를 얻기 위해 요소가 필요하지 않습니다 . 물론 미니멀리즘은 물론 똑같을 것입니다. m 으로 정규화하는 일반적인 이유 중 하나 는 비용 함수를 "일반화 오류"에 대한 근사치로 볼 수 있기 때문입니다. 이는 훈련 세트가 아닌 무작위로 선택된 새로운 예에서 예상되는 제곱 손실입니다.1/mm

가정 일부 IID 분포로부터 샘플링된다. 그런 다음 큰 m의 경우 1 을 기대합니다. (X,Y),(X(1),Y(1)),,(X(m),Y(m))m

1mi=1m(hθ(X(i))Y(i))2E(hθ(X)Y)2.

더 정확하게 말하면, 많은 수의 강한 법칙에 의해 우리는 확률 1.

limm1mi=1m(hθ(X(i))Y(i))2=E(hθ(X)Y)2

참고 : 위의 각 설명 은 훈련 세트를 보지 않고 선택한 특정 에 대한 것입니다. 머신 러닝을 위해, 우리는이 문장들이θ 훈련 세트에 그것의 좋은 성능에 따라 선택합니다. 이러한 주장은이 경우에도 여전히 유효 할 수 있지만, 함수 집합에 대해 몇 가지 가정을해야합니다.{hθθ^ , 우리는 큰 수의 법칙보다 더 강한 것이 필요합니다. {hθ|θΘ}


1
@StudentT 아마도 전체에 평균 오류를 사용하는 가장 좋은 이유 일 것입니다. 내 설명은 실제로 DavidR의 더 깊은 이유의 표면적 결과입니다.
Matthew Drury

28

당신은하지 않습니다 에. 손실 함수는 1 을 포함하든 최소값과 동일합니다. 또는 억제하십시오. 그래도 포함 시키면데이터 포인트 당평균오류를 최소화 (1/2)하는 것으로 해석됩니다. 오류의 최소화되어, 다른 방법으로 넣어속도대신 전체 오류입니다.1m

크기가 다른 두 데이터 세트의 성능을 비교해보십시오. 더 큰 데이터 세트는 크기 때문에 더 큰 총 오류가있는 경향이 있기 때문에 제곱 오차의 총합은 직접 비교할 수 없습니다. 반면, 데이터 포인트 당 평균 오류는 입니다 .

좀 더 정교하게 할 수 있습니까?

{xi,yi}hh

(h(xi)yi)2

물론 이것은 각 데이터 포인트마다 다릅니다. 이제 단순히 오류를 요약하고 설명하는 이유로 절반을 곱하면 총 오류가 발생합니다.

12i(h(xi)yi)2

but if we divide by the number of summands we get the average error per data point

12mi(h(xi)yi)2

The benefit of the average error is that if we have two datasets {xi,yi} and {xi,yi} of differeing sizes, then we can compare the average errors but not the total errors. For if the second data set is, say, ten times the size of the first, then we would expect the total error to be about ten times larger for the same model. On the other hand, the average error divides out the effect of the size of the data set, and so we would expect models of similar performance to have the similar average errors on different data sets.


1
I can kind of follow you, can you elaborate a bit? Sorry, I'm new to machine learning!
SmallChess

@StudentT I attempted a clarification in my answer.
Matthew Drury

1
The same also applies if you happen to experiment with the mini-batch size when doing stochastic gradient descent, which is the most common type of linear gradient descent when working with large datasets: you can more easily compare the error.
jasonszhao
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.