아시다시피, 선형 회귀를 얻기 위해 요소가 필요하지 않습니다 . 물론 미니멀리즘은 물론 똑같을 것입니다. m 으로 정규화하는 일반적인 이유 중 하나 는 비용 함수를 "일반화 오류"에 대한 근사치로 볼 수 있기 때문입니다. 이는 훈련 세트가 아닌 무작위로 선택된 새로운 예에서 예상되는 제곱 손실입니다.1/mm
가정 일부 IID 분포로부터 샘플링된다. 그런 다음 큰 m의 경우 1 을 기대합니다.
(X,Y),(X(1),Y(1)),…,(X(m),Y(m))m
1m∑i=1m(hθ(X(i))−Y(i))2≈E(hθ(X)−Y)2.
더 정확하게 말하면, 많은 수의 강한 법칙에 의해 우리는
확률 1.
limm→∞1m∑i=1m(hθ(X(i))−Y(i))2=E(hθ(X)−Y)2
참고 : 위의 각 설명 은 훈련 세트를 보지 않고 선택한 특정 에 대한 것입니다. 머신 러닝을 위해, 우리는이 문장들이θ 훈련 세트에 그것의 좋은 성능에 따라 선택합니다. 이러한 주장은이 경우에도 여전히 유효 할 수 있지만, 함수 집합에 대해 몇 가지 가정을해야합니다.{hθθ^ , 우리는 큰 수의 법칙보다 더 강한 것이 필요합니다. {hθ|θ∈Θ}