원래 질문은 오류 기능이 볼록해야하는지 여부를 물었습니다. 아니 그렇지 않아. 아래에 제시된 분석은이 함수와 수정 된 질문에 대한 통찰력과 직감을 제공하여 오류 함수가 여러 개의 극소값을 가질 수 있는지를 묻습니다.
직관적으로, 데이터와 훈련 세트간에 수학적으로 필요한 관계가있을 필요는 없습니다. 우리는 초기에 모델이 좋지 않은 훈련 데이터를 찾을 수 있어야하고, 정규화를 통해 더 나아졌다가 다시 악화됩니다. 이 경우 오차 곡선은 볼록 할 수 없습니다. 적어도 정규화 매개 변수를 에서 변경하면 그렇지 않습니다 .0∞
참고 볼록 것은 고유의 최소 필요에 해당하지 않습니다! 그러나 유사한 아이디어는 여러 지역 최소값이 가능하다는 것을 제안합니다. 정규화 중에 먼저 적합 모델이 다른 훈련 데이터에 대해 눈에 띄게 변경되지 않으면 서 일부 훈련 데이터에 대해 더 나아질 수 있으며 나중에 다른 훈련 데이터에 대해 더 나아질 것입니다. 이러한 훈련 데이터의 혼합은 여러 지역 최소치를 생성해야한다. 분석을 간단하게 유지하기 위해 나는 그것을 보여 주려고 시도하지 않을 것입니다.
수정 (변경된 질문에 응답하기 위해)
나는 아래 제시된 분석과 그에 대한 직감을 확신하여 가능한 한 가장 좋은 방법으로 예제를 찾는 것에 대해 설정했습니다. 작은 임의의 데이터 세트를 생성하고, 올가미를 실행하고, 작은 훈련 세트의 총 제곱 오차를 계산했으며, 오류 곡선을 플로팅했습니다. 몇 번의 시도로 두 가지 최소값으로 하나를 생성했습니다. 벡터는 피처 및 및 응답 대한 입니다 .(x1,x2,y)x1x2y
훈련 데이터
(1,1,−0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)
테스트 데이터
(1,1,0.2), (1,2,0.4)
올가미는 glmnet::glmmet
in을 사용하여 실행 R
되었으며 모든 인수는 기본값으로 남아 있습니다. 의 값 X 축의가있다 역수 (그것은 그것의 패널티를 매개 변수화하기 때문에 가치가 소프트웨어에 의해보고 된 ).1 / λλ1/λ
여러 극소값을 갖는 오차 곡선
분석
하자 고려 어떤 매개 변수 피팅의 정규화 방법 데이터에 응답을하고 해당 리지 회귀 올가미에 이러한 속성의 일반적인있다 :x i y iβ=(β1,…,βp)xi와이나는
(매개 변수화)이 메소드는 실수 로 매개 변수화되며 해당하는 비정규 화 된 모델이 있습니다.λ = 0λ ∈ [ 0 , ∞ )λ = 0
(연속성) 매개 변수 추정값 은 에 지속적으로 의존 하며 모든 기능에 대한 예측 된 값은 따라 계속 다릅니다 . λ ββ^λβ^
(수축) , .β → 0λ → ∞β^→ 0
(친절도) 과 같은 특징 벡터 경우 예측 입니다.β → 0 Y ( X ) = F ( X , β ) → 0엑스β^→ 0와이^( x ) = f( x , β^) → 0
(모노 닉 오류) 임의의 값 를 예측 된 값 , 과 비교하는 오류 함수 는 불일치따라서 약간의 표기법 남용으로이를 로 표현할 수 있습니다 .Y L ( Y , Y ) | Y - Y | L ( | Y - Y | )와이와이^L (y, y^)| 와이^− y|L ( | y^− y| )
( 영점은 상수로 대체 될 수 있습니다.)( 4 )
초기 (비정규 화 된) 모수 추정값 이 이 아닌 데이터라고 가정합니다 . 하자 구조체 한 관찰 이루어지는 트레이닝 데이터 세트 되는 . (그런 을 찾을 수 없다면, 초기 모델은 그리 흥미롭지 않을 것입니다!) . (X0,Y0)F(X0, β (0))≠0X0(Y)0=F(X0, β (0))/2β^( 0 )( x0, y0)에프( x0, β^( 0 ) ) ≠ 0엑스0와이0= f( x0, β^( 0 ) ) / 2
가정은 오류 곡선 암시합니다 .e : λ → L ( y0, f( x0, β^( λ ) )
Y 0e ( 0 ) = L ( y0, f( x0, β^( 0 ) ) = L ( y0, 2 년0) = L ( | y0| ) 때문에 의 선택 ).와이0
λ → ∞ β ( λ ) → 0 Y ( X 0 ) → 0임λ → ∞e(λ)=L(y0,0)=L(|y0|) ( , 로 인해 , 어디서 ).λ→∞β^(λ)→0y^(x0)→0
따라서 그래프는 두 개의 동일하고 유한 한 끝점을 지속적으로 연결합니다.
질적으로는 세 가지 가능성이 있습니다.
훈련 세트에 대한 예측은 절대 변하지 않습니다. 이것은 거의 불가능합니다. 선택한 예제에 대해서만이 속성이 없습니다.
일부 중간 예측 있다 악화 개시시보다 또는 한계 . 이 기능은 볼록 할 수 없습니다.λ = 0 λ → ∞0<λ<∞λ=0λ→∞
모든 중간 예측은 과 사이에 있습니다. 연속성은 적어도 하나의 최소 가 존재할 것이며 , 그 근처에서 는 볼록해야한다. 그러나 는 무한정 의 유한 상수에 접근 하기 때문에 충분히 큰 대해서는 볼록 할 수 없습니다 .2 y 0 e e e ( λ ) λ02 년0이자형이자형e ( λ )λ
그림의 세로 점선은 플롯이 볼록 (왼쪽)에서 볼록하지 않은 곳 (오른쪽)으로 바뀌는 위치를 보여줍니다. ( 이 그림의 근처에는 볼록하지 않은 영역 이 있지만 일반적으로 반드시 그런 것은 아닙니다.)λ ≈ 0