정규화 매개 변수 람다의 오류율이 볼록 함수입니까?


11

Ridge 또는 Lasso에서 정규화 매개 변수 람다를 선택할 때 권장되는 방법은 다른 람다 값을 시도하고 유효성 검사 세트에서 오류를 측정 한 다음 마지막으로 가장 낮은 오류를 반환하는 람다 값을 선택하는 것입니다.

함수 f (lambda) = error가 볼록한 경우 나에게 오지 않습니다. 이렇게 될 수 있을까요? 즉,이 곡선은 하나 이상의 지역 최소값을 가질 수 있습니다 (이는 람다의 일부 지역에서 최소 오류를 찾는 것이 일부 다른 지역에서는 람다가 더 작은 오류를 반환 할 가능성을 배제하지 않음을 의미합니다)

여기에 이미지 설명을 입력하십시오

조언을 부탁드립니다.

답변:


11

원래 질문은 오류 기능이 볼록해야하는지 여부를 물었습니다. 아니 그렇지 않아. 아래에 제시된 분석은이 함수와 수정 된 질문에 대한 통찰력과 직감을 제공하여 오류 함수가 여러 개의 극소값을 가질 수 있는지를 묻습니다.

직관적으로, 데이터와 훈련 세트간에 수학적으로 필요한 관계가있을 필요는 없습니다. 우리는 초기에 모델이 좋지 않은 훈련 데이터를 찾을 수 있어야하고, 정규화를 통해 더 나아졌다가 다시 악화됩니다. 이 경우 오차 곡선은 볼록 할 수 없습니다. 적어도 정규화 매개 변수를 에서 변경하면 그렇지 않습니다 .0

참고 볼록 것은 고유의 최소 필요에 해당하지 않습니다! 그러나 유사한 아이디어는 여러 지역 최소값이 가능하다는 것을 제안합니다. 정규화 중에 먼저 적합 모델이 다른 훈련 데이터에 대해 눈에 띄게 변경되지 않으면 서 일부 훈련 데이터에 대해 더 나아질 수 있으며 나중에 다른 훈련 데이터에 대해 더 나아질 것입니다. 이러한 훈련 데이터의 혼합은 여러 지역 최소치를 생성해야한다. 분석을 간단하게 유지하기 위해 나는 그것을 보여 주려고 시도하지 않을 것입니다.

수정 (변경된 질문에 응답하기 위해)

나는 아래 제시된 분석과 그에 대한 직감을 확신하여 가능한 한 가장 좋은 방법으로 예제를 찾는 것에 대해 설정했습니다. 작은 임의의 데이터 세트를 생성하고, 올가미를 실행하고, 작은 훈련 세트의 총 제곱 오차를 계산했으며, 오류 곡선을 플로팅했습니다. 몇 번의 시도로 두 가지 최소값으로 하나를 생성했습니다. 벡터는 피처 및 및 응답 대한 입니다 .(x1,x2,y)x1x2y

훈련 데이터

(1,1,0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

테스트 데이터

(1,1,0.2), (1,2,0.4)

올가미는 glmnet::glmmetin을 사용하여 실행 R되었으며 모든 인수는 기본값으로 남아 있습니다. 의 값 X 축의가있다 역수 (그것은 그것의 패널티를 매개 변수화하기 때문에 가치가 소프트웨어에 의해보고 된 ).1 / λλ1/λ

여러 극소값을 갖는 오차 곡선

그림


분석

하자 고려 어떤 매개 변수 피팅의 정규화 방법 데이터에 응답을하고 해당 리지 회귀 올가미에 이러한 속성의 일반적인있다 :x i y iβ=(β1,,βp)xi와이나는

  1. (매개 변수화)이 메소드는 실수 로 매개 변수화되며 해당하는 비정규 화 된 모델이 있습니다.λ = 0λ[0,)λ=0

  2. (연속성) 매개 변수 추정값 은 에 지속적으로 의존 하며 모든 기능에 대한 예측 된 값은 따라 계속 다릅니다 . λ ββ^λβ^

  3. (수축) , .β0λβ^0

  4. (친절도) 과 같은 특징 벡터 경우 예측 입니다.β0 Y ( X ) = F ( X , β ) 0엑스β^0와이^(엑스)=에프(엑스,β^)0

  5. (모노 닉 오류) 임의의 값 를 예측 된 값 , 과 비교하는 오류 함수 는 불일치따라서 약간의 표기법 남용으로이를 로 표현할 수 있습니다 .Y L ( Y , Y ) | Y - Y | L ( | Y - Y | )와이와이^(와이,와이^)|와이^와이|(|와이^와이|)

( 영점은 상수로 대체 될 수 있습니다.)(4)

초기 (비정규 화 된) 모수 추정값 이 이 아닌 데이터라고 가정합니다 . 하자 구조체 한 관찰 이루어지는 트레이닝 데이터 세트 되는 . (그런 을 찾을 수 없다면, 초기 모델은 그리 흥미롭지 않을 것입니다!) . (X0,Y0)F(X0, β (0))0X0(Y)0=F(X0, β (0))/2β^(0)(엑스0,와이0)에프(엑스0,β^(0))0엑스0와이0=에프(엑스0,β^(0))/2

가정은 오류 곡선 암시합니다 .이자형:λ(와이0,에프(엑스0,β^(λ))

  1. Y 0이자형(0)=(와이0,에프(엑스0,β^(0))=(와이0,2와이0)=(|와이0|) 때문에 의 선택 ).와이0

  2. λ β ( λ ) 0 Y ( X 0 ) 0limλe(λ)=L(y0,0)=L(|y0|) ( , 로 인해 , 어디서 ).λβ^(λ)0y^(x0)0

따라서 그래프는 두 개의 동일하고 유한 한 끝점을 지속적으로 연결합니다.

$ e $의 가능한 그래프를 보여주는 그림.

질적으로는 세 가지 가능성이 있습니다.

  • 훈련 세트에 대한 예측은 절대 변하지 않습니다. 이것은 거의 불가능합니다. 선택한 예제에 대해서만이 속성이 없습니다.

  • 일부 중간 예측 있다 악화 개시시보다 또는 한계 . 이 기능은 볼록 할 수 없습니다.λ = 0 λ 0<λ<λ=0λ

  • 모든 중간 예측은 과 사이에 있습니다. 연속성은 적어도 하나의 최소 가 존재할 것이며 , 그 근처에서 는 볼록해야한다. 그러나 는 무한정유한 상수에 접근 하기 때문에 충분히 큰 대해서는 볼록 할 수 없습니다 .2 y 0 e e e ( λ ) λ02y0eee(λ)λ

그림의 세로 점선은 플롯이 볼록 (왼쪽)에서 볼록하지 않은 곳 (오른쪽)으로 바뀌는 위치를 보여줍니다. ( 이 그림의 근처에는 볼록하지 않은 영역 이 있지만 일반적으로 반드시 그런 것은 아닙니다.)λ0


정교한 답변에 감사드립니다. 가능하면 수정 한대로 질문을 검토하고 답변을 업데이트하십시오.
rf7

훌륭한 답변 (+1). 실제로, 나는 종종 훈련 및 테스트 데이터 포인트가 그리 많지 않다고 생각합니다. 이 답변의 결론은 동일한 (고정되고 규칙적인) 분포에서 도출 된 충분한 교육 및 테스트 데이터 포인트가있을 때 변경됩니까? 특히,이 시나리오에서는 확률이 높은 고유 한 로컬 최소값이 있습니까?
user795305

@Ben 중요한 테스트 포인트의 수가 아닙니다 :이 결과는 전적으로 트레이닝 포인트의 분포에 대한 테스트 포인트의 분포에 달려 있습니다. 따라서 회귀 변수의 다변량 분포에 대한 특정 가정을 만들지 않으면 "확률이 높은"문제는 대답 할 수 없습니다. 또한, 많은 변수가 작용함에 따라 이러한 다중 국소 최소 현상은 훨씬 더 가능성이 높습니다. 나는 의심 (변수 많은 관찰로 여러 번에) 큰 테스트 세트의 무작위 선택을 할 수 종종 독특한 글로벌 분 있습니다.
whuber

1
@whuber 감사합니다! 나는 훈련 점과 시험 점 사이의 (진정한) 분포가 같아야하고, 훈련과 시험 세트의 경험적 분포가 일치 할만큼 충분한 표본이 필요하다는 것에 동의한다. 예를 들어, 가 공동으로 정규 분포 (비 변성 공분산 포함)를 갖는 경우 고유 한 국부 최소값을 갖는 오차 곡선의 확률이 1 (예를 들어, 고정 된 상태에서 로 훈련 테스트 세트에 샘플이있는 경우 (또는 비해 느리게 증가하는 경우 )n n p n(x,y)nnp
user795305

0

이 답변은 특히 올가미와 관련이 있습니다 (그리고 능선 회귀를 유지하지 않습니다).

설정

반응을 모델링하는 데 사용하는 공변량이 있다고 가정합니다 . 훈련 데이터 포인트와 검증 데이터 포인트 가 있다고 가정합니다 .n m미디엄

학습 입력을 하고 응답은 . 이 교육 데이터에 올가미를 사용합니다. 즉, 훈련 데이터로부터 추정 된 계수 계열. 우리는 선택할 것이다 입력으로 검증 집합의 에러에 기초하여 우리의 추정기로서 사용하는 과 반응 입니다. 함께 Y ( 1 )R N β λ = ARG β R PY ( 1 ) - X ( 1 ) β 2 2 + λ β 1 , β λ X ( 2 )R m × P의 Y (엑스(1)아르 자형×와이(1)아르 자형

(1)β^λ=인수β아르 자형와이(1)엑스(1)β22+λβ1,
β^λ엑스(2)아르 자형미디엄×와이(2)아르 자형미디엄
(2)λ^=인수λ아르 자형+와이(2)엑스(2)β^λ22,
우리는 오차 함수의 공부에 관심이있는 우리의 데이터 중심의 추정에 상승을 제공 .이자형(λ)=와이(2)엑스(2)β^λ22β^λ^

계산

이제, 우리는 방정식 대물 번째 도함수를 계산한다 없이, 임의의 온 분배 가정 의 또는 의. 차별화 및 일부 재구성을 사용하여 (공식적으로) (2)엑스와이

2λ2와이(2)엑스(2)β^λ22=λ{2와이(2)엑스(2)λβ^λ+2β^λ엑스(2)엑스(2)λβ^λ}=2와이(2)엑스(2)2λ2β^λ+2(β^λ)엑스(2)엑스(2)2λ2β^λ+2λβ^λ엑스(2)엑스(2)λβ^λ=2{(와이(2)엑스(2)β^λ)2λ2β^λ엑스(2)λβ^λ22}.
이후 IS 조각 별 선형위한 (대해 올가미 용액 경로 매듭들의 유한 집합 인) 유도체 불연속 상수이고 모두 제로 . 따라서 음수가 아닌 함수 .β^λλ케이케이λβ^λ2λ2β^λλ케이
2λ2와이(2)엑스(2)β^λ22=2엑스(2)λβ^λ22,
λ

결론

가 과 무관 한 일부 연속 분포에서 도출 되었다고 가정 하면 벡터 거의 확실하게 입니다. 따라서 오류 함수 는 에 대한 2 차 미분을 가지며, 이는 거의 확실하게 양의 값입니다. 그러나 가 연속적임을 알면 유효성 검사 오류 가 연속적 이라는 것을 알고 있습니다.엑스(2){엑스(1),와이(1)}엑스(2)λβ^λ0λ<λ최대이자형(λ)아르 자형케이β^λ이자형(λ)

마지막으로 올가미 듀얼에서 증가함에 따라 단조롭게 감소 함을 알 수 있습니다. 도 다는 것을 알 수 있다면 의 강한 볼록성은 다음과 같습니다. 그러나 이는 경우 확률이 1에 가까워집니다 . (자세한 내용은 여기에 입력하겠습니다.)엑스(1)β^λ22λ엑스(2)β^λ22이자형(λ)(엑스(1))=(엑스(2))


1
당신은 만 의 연속적인 부분 선형 함수 인 가 엄격하게 볼록 하다는 결론을 내립니다 . 해당 공제가 일반적으로 유효한지 확인하십시오. 그러한 기능 중 하나는(여기서 는 가장 가까운 정수로 반올림합니다). 가정 및 , 그래서 . 이 에러 함수는 무한히 많은 로컬 최소값을 가지고 있습니다. 볼록한 것이 아닙니다. 격리 된 지점을 제외하고 모든 곳에서 볼록한 것입니다! 그것은 당신이 추가로 추정되지 않은 가정을하고 있다고 믿게합니다. λ 전자 β (λ)=| λ[λ]| []Y(2)=0X(2)=1 E (λ)= β (λ)2β^λ이자형^β^(λ)=|λ[λ]|[]와이(2)=0엑스(2)=1이자형^(λ)=β^(λ)2
우버

@whuber 좋은 지적입니다! 감사! 이 게시물을 더 빨리 편집하겠습니다.
user795305
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.