가중치가 작을수록 정규화에서 모델이 더 단순 해지는 이유는 무엇입니까?


27

저는 1 년 전에 Andrew Ng의 기계 학습 과정을 수료했으며 이제 로지스틱 회귀 작업과 성능 최적화 기술에 대한 고등학교 수학 탐구를 작성하고 있습니다. 물론 이러한 기술 중 하나는 정규화입니다.

정규화의 목표는 모델 단순성의 목표를 포함하도록 비용 함수를 확장하여 과적 합을 방지하는 것입니다. 우리는 비용 함수에 각 가중치를 제곱하고 정규화 매개 변수를 곱하여 가중치 의 크기 에 불이익을가함으로써이를 달성 할 수 있습니다 .

이제 머신 러닝 알고리즘은 트레이닝 세트의 정확도를 유지하면서 무게의 크기를 줄이는 것을 목표로합니다. 아이디어는 데이터를 일반화하고 덜 복잡하여 모든 확률 적 노이즈에 맞추지 않는 모델을 생성 할 수있는 중간 지점에 도달한다는 것입니다.

나의 혼란은 우리 가 무게 의 크기 에 불이익을 주는가? 더 큰 가중치가 더 복잡한 모델을 생성하고 더 작은 가중치가 더 단순하고 스모 더링 모델을 만드는 이유는 무엇입니까? 앤드류 응 (Andrew Ng)은 강의에서 설명이 어렵다고 주장하지만, 나는 지금이 설명을 찾고 있다고 생각합니다.

Ng 교수는 실제로 새로운 비용 함수로 인해 형상의 가중치 (예 : x ^ 3 및 x ^ 4)가 0으로 향하여 모델의 차수가 감소하는 방법에 대한 예를 제시했지만, 이것이 완전한 것은 아닙니다. 설명.

저의 직감은 작은 가중치를 가진 피쳐보다 작은 가중치를 가진 피쳐에서 가중치가 작을수록 "허용되는"경향이 있다는 것입니다 (작은 가중치를 가진 피쳐는 함수의 기초와 같기 때문에). 가중치가 작을수록 순서가 높은 기능에 대한 "기여"가 더 작습니다. 그러나이 직관은 그리 구체적이지 않습니다.


2
이것은 "할아버지가 이해할 수 있도록"대답이 필요한 질문처럼 들립니다.
EngrStudent-복직 모니카

2
@EngrStudent 이것이 고등학교 수학 교사와 고등학교 수학 시험관이 읽을 수 있도록 Math IA에 제시해야하는 방식이기 때문입니다.
MCKapur

답변:


4

정규화 를 사용하는 경우 샘플 내 오류를 최소화 할뿐만 아니라 OutOfSampleErrorInSampleError+ModelComplexityPenalty.

더 정확하게는, 가설hH의경우 2 m Ω. 여기서λ는 일부 매개 변수, 일반적으로λ(0,1),m은 데이터 세트의 예 수이고Ω은 가중치w,Ω=wTw. 이를 기능보강 오류라고합니다. 이제 무게가 다소 작은 경우에만 위의 기능을 최소화 할 수 있습니다.Jaug(h(x),y,λ,Ω)=J(h(x),y)+λ2mΩhHλλ(0,1)mΩwΩ=wTw

여기에 장난감을 넣을 R 코드가 있습니다.

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

따라서 전체 가설 공간 에 불이익을주는 대신 각 가설 h에 개별적 으로 불이익을가합니다 . 가설 h 를 가중치 벡터 w로 언급하는 경우가 있습니다.Hhhw

작은 가중치가 낮은 모델 복잡성과 함께 나타나는 이유에 대해서는 가설을 살펴 보겠습니다 . 총 3 개의 활성 가중치 매개 변수 w 1 , , w 3이 있습니다. 이제 w 3 을 매우 작은 값인 w 3 = 0으로 설정하겠습니다 . 이 정보는 다음의 제품에 모델의 복잡성을 줄여 시간h1(x)=x1×w1+x2×w2+x3×w3w1,,w3w3w3=0 입니다. 3 개의 활성 중량 매개 변수 대신 2 개만 남았습니다.h1(x)=x1×w1+x2×w2


1
가중치가 0으로 줄어들면 항을 계산할 수 있고 계산 연산을 수행 할 수 있으므로 모형의 복잡성이 줄어 듭니다. 그러나 이것은 가중치 값이 0에 가까워 지면서 모델의 복잡성이 감소하는 이유를 설명하는 데 도움이되지 않습니다 . 누구나 수식이 아닌 단어로 설명 할 수 있습니까?
greg7gkb

6

내가 무슨 말을하는지 정말로 알 수는 없지만 확실하게 설명하겠습니다. 과체중을 방지하는 무게가 적지는 않습니다 (제 생각에). 정규화하면 모델 공간이 더 강력하게 줄어 듭니다. 실제로 X 값의 L2 규범에서 10000000 벡터를 빼면 약 10000000을 정규화 할 수 있습니다. 이것은 또한 과적 합을 감소시킬 것입니다 (물론 당신은 또한 그 일을 뒷받침하는 근거가 있어야합니다 (예 : Y 값이 X 값의 합보다 10000000 배 더 크지 만 데이터를 재조정 할 수 있기 때문에 아무도 실제로 그렇게하지 않습니다)).

바이어스와 분산은 모두 모델 복잡성의 함수입니다. 이것은 VC 이론과 관련이 있으므로 살펴보십시오. 가능한 모델의 공간이 클수록 (즉, 모든 매개 변수가 기본적으로 사용할 수있는 값) 모델이 과적 합할 가능성이 높아집니다. 모델이 직선에서 상하로 이동할 수있는 사인파와 같은 모든 방향으로 흔들기까지 모든 작업을 수행 할 수있는 경우 데이터의 결과가 아닌 임의의 섭동을 선택하여 모델링 할 가능성이 훨씬 높습니다 기본 신호이지만 해당 데이터 세트에서 운이 좋은 기회의 결과입니다 (더 많은 데이터를 얻는 것이 과적 합에 도움이되지만 과적 합에 도움이되지 않는 이유).

정규화하면 기본적으로 모형 공간이 줄어 듭니다. 이것이 더 부드럽고 평탄한 기능이 바이어스가 높고 분산이 적다는 것을 의미하지는 않습니다. 사인파로 겹쳐진 선형 모델을 생각해보십시오. 사인파는 기본적으로 아무것도하지 않는 진폭 진동이 거의 없습니다 (기본적으로 퍼지 라인). 이 함수는 어떤면에서는 매우 흔들리지 만 선형 회귀보다 약간 더 적합합니다. 더 부드러운 / 플랫 터 기능이 더 편향이 적고 분산이 적은 경향이있는 이유는 데이터 과학자가 샘플 공간을 줄이면 occam의 면도기로 모델을 더 매끄럽고 더 단순하게 유지하고 모델을 버리는 것으로 가정하기 때문입니다. 그 곳곳에서 흔들리고 진동하고 있습니다. 흔들기 쉬운 모델을 먼저 버리는 것이 좋습니다.

능선 회귀와 같은 정규화는 모형 공간을 줄이거 나 0 (또는 숫자)에서 멀어 질수록 비용이 많이 들기 때문에 모형 공간을 줄입니다. 따라서 모형이 데이터의 작은 동요를 고려하는 선택에 직면 할 때 매개 변수 값이 (일반적으로) 증가하기 때문에 그렇지 않은 편에서 오류가 발생할 가능성이 높습니다. 이 변동이 임의의 확률 (예 : x 변수 중 하나가 y 변수와 약간 임의의 상관 관계를 가짐)에 기인 한 경우, 정규화되지 않은 회귀는 관련 비용이 없기 때문에 모형은이를 정규화되지 않은 회귀와 비교하지 않습니다. 베타 크기가 증가합니다. 그러나 이러한 동요가 실제 신호로 인한 경우 정규화 된 회귀가이를 놓칠 가능성이 높아져 편향이 더 높은 이유 (및 편차 편향이있는 이유)가됩니다.


당신의 사려 깊은 답변에 감사드립니다! 예, 네 번째 단락에서 "모델이 데이터의 작은 섭동을 고려하는 선택에 직면 할 때 (일반적으로) 매개 변수가 증가하기 때문에 그렇지 않은 쪽에서 오류가 발생할 가능성이 더 높습니다 값.". 이것이 내가 왜 그런지 구체적으로 묻는 것 입니까? 감사!
MCKapur

페널티 팩터를 추가하면 모델의 베타 버전이 높아질 가능성이 낮아 지므로 모델 공간이 줄어 듭니다. 기억해야 할 또 다른 점은 모델이 모든 노이즈 인 경우 상관 관계가 없기 때문에 기울기가 0 일 가능성이 있다는 것입니다. 일반적으로 사실). 따라서 왜곡 / 관계가있는 경우 베타가 증가 할 수 있습니다. 따라서 정규화는이 사실에 불이익을 미치며 회귀가 신호 또는 잡음에 따라 섭동을 맞추는 것을 막습니다.
www3

@ ww3 이해합니다. 그러나 왜 베타가 클수록 모델 공간이 더 커 집니까?
MCKapur

더 이상 이것이 필요한지 확실하지 않지만 대답 할 것이라고 생각했습니다. 중요한 베타 버전은 아닙니다. 예를 들어, Y 또는 1000 * Y로 회귀를 수행 할 수 있지만 각각의 복잡성은 동일하지만 두 번째 경우 베타는 1000이 높습니다. 일반적인 정규화는 하나의 계수가 1000이고 다른 계수가 -1000 인 것과 같이 특정 베타 조합을 얻는 것이 더 어려워지고 다른 0보다 더 평평하고 단순한 다른 베타 조합을 얻는 것이 더 어렵습니다. 즉, 모형에 데이터에서 특정 소음이 발생하면 정규화 된 모형이이를 포착 할 가능성이 줄어 듭니다.
www3

계속하기 위해 모델은 모든 시끄러운 단점을 무시하지 않으며 베타의 절대 값을 증가시키는 단점 만 무시합니다. 이것은 베타 값을 줄이는 단점이 더 강조 될 것임을 의미합니다. 직선보다 그릴 수있는 훨씬 더 흔들리는 선이 있기 때문에 괜찮습니다 (즉, 2 차 방정식을 선형 또는 상수 방정식과 비교). 따라서 데이터에 영향을 미치는 잡음이 많은 문제가있는 경우 모델이 더 평평하고 직선형 인 모델보다 더 흔들 리게 (따라서 더 복잡한 모델) 적합하게 만들 수 있습니다.
www3

3

이야기 :
할머니는 걸어가지만 올라가지 않습니다. 어떤 할머니들은 그렇습니다. 한 할머니는 킬리만자로 등반하는 것으로 유명했습니다 .

그 휴화산 은 크다. 받침대 위로 16,000 피트입니다. (제국을 싫어하지 마십시오.) 때때로 빙하가 맨 위에 있습니다.

빙하가없는 해에 오르면 정상에 도착하면 빙하가있는 것과 같은 정상입니까? 고도가 다릅니다. 취해야 할 길은 다릅니다. 빙하 두께가 더 클 때 상단으로 가면 어떻게 되나요? 그것이 더 많은 업적을 이루나요? 매년 약 35,000 명이 등반을 시도 하지만 약 16,000 명만이 성공합니다.

응용 :
그래서 나는 할머니에게 체중 조절 (일명 모델 복잡성을 최소화)을 설명 할 것입니다.

할머니, 당신의 두뇌는 당신이 그것을 알고 있든 없든 놀라운 사상가입니다. 16,000 명 중 얼마나 많은 사람들이 실제로 정상에 도달했다고 생각하면 "모두"라고 말할 것입니다.

3 만 명의 클라이머의 신발에 센서를 설치하고 해발 높이를 측정하면 그 사람들 중 일부는 다른 사람만큼 높지 않아 자격이 없을 수도 있습니다. 내가 할 때 나는 일정한 모델로 갈 것입니다-높이가 측정 된 최대 높이의 백분위 수와 같지 않다면 최고가 아닙니다. 어떤 사람들은 정상에 뛰어 오른다. 어떤 사람들은 그냥 길을 건너 앉습니다.

센서에 위도 및 경도를 추가하고 고차 방정식을 적용하고 더 잘 맞을 수 있으며 더 많은 사람들을 수용 할 수 있으며, 시도하는 총 사람들의 정확히 45 %를 차지할 수도 있습니다.

내년은 어떤 화산이 지구의 알베도 를 실제로 변화시키기 때문에 "큰 빙하"년 또는 "빙하없는"년이라고 가정 해 봅시다 . 올해부터 복잡하고 정확한 모델을 가져와 내년에 올라가는 사람들에게 적용하면 모델이 이상한 결과를 낳을 것입니다. 어쩌면 모든 사람이 "통과"하거나 너무 높아서 통과 할 수도 있습니다. 아마 아무도 통과하지 못할 것이며, 실제로 아무도 등반을 완료하지 않았다고 생각할 것입니다. 특히 모델이 복잡한 경우 잘 일반화되지 않는 경향이 있습니다. 올해의 "훈련"데이터에 정확히 맞을 수 있지만 새로운 데이터가 올 때 제대로 작동하지 않습니다.

토론 :
모형의 복잡성을 제한하면 일반적으로 과적 합없이 더 나은 일반화를 수행 할 수 있습니다. 더 단순한 모델을 사용하면 실제 변형을 수용하도록 더 빌드 된 모델은 더 나은 결과를 제공하는 경향이 있습니다.

이제 네트워크 토폴로지가 고정되어 있으므로 "내 매개 변수 수는 고정되어 있습니다"라는 말이 있습니다. 모델 복잡도에는 변화가 없습니다. 무의미한 말. 무게의 엔트로피를 측정하십시오. 엔트로피가 높을 때 일부 계수는 다른 계수보다 실질적으로 더 많은 "정보"를 가지고 있음을 의미합니다. 엔트로피가 매우 낮 으면 일반적으로 계수가 비슷한 수준의 "정보"를 나타냅니다. 정보가 반드시 좋은 것은 아닙니다. 민주주의에서 당신은 모든 사람들이 평등하기를 원하고, 조지 오웰과 같은 것들이 "다른 사람들보다 평등하다"는 것은 시스템의 실패의 척도입니다. 그럴만한 이유가 없다면, 가중치가 서로 비슷하게되기를 원합니다.

개인적으로 : 부두 나 휴리스틱을 사용하는 대신, "정보 기준"과 같은 것들을 선호합니다. 왜냐하면 그들은 신뢰할 수 있고 일관된 결과를 얻을 수 있기 때문입니다. AIC , AICcBIC 는 일반적이고 유용한 시작점입니다. 솔루션의 안정성 또는 정보 기준 결과 범위를 결정하기 위해 분석을 반복하는 것이 일반적인 접근 방식입니다. 무게의 엔트로피에 천장을 두는 것을 볼 수 있습니다.


2
흥미롭게 다릅니다. Pedant의 코너 : "Orson Wells"를 썼습니다. 철자는 Welles입니다. 조지 오웰 ( 동물 농장 )을 모두 의미한다고 생각합니다 .
Nick Cox

@ NickCox-나는 매우 아 have습니다. 제 뇌가 원하는대로 작동하지 않습니다. 오웰이었다.
EngrStudent-복직 모니카

모델 복잡성이 고정 된 수의 매개 변수 (두 번째 단락부터 마지막 ​​단락까지의 아이디어)에 따라 변하는 이유를 이해하고 싶습니다. 운이 인터넷에 "매개 변수 엔트로피"또는 "ols 매개 변수 엔트로피"가 없습니다. 엔트로피의 개념을 잘 사용 했습니까? 아니면 이것이 모델 매개 변수의 속성으로 널리 알려진 실제 이름입니까? 미리 감사드립니다.
Alvaro Fuentes

1
@AlvaroFuentes-엔트로피는 이런 의미에서 정보 이론에서 비롯됩니다. 위키피디아 기사입니다. 가중치를 목록으로 생각하면 확률 법에 가까운 커널 방법을 사용하여 모든 가중치의 시스템 엔트로피를 계산할 수 있습니다. 더 큰 규모로 뉴런을 비교하기 위해 뉴런 당 평균 엔트로피를 볼 수 있습니다.
EngrStudent-복직 모니카

0

간단한 직관은 다음과 같습니다. 정규화를 위해 기능을 대략적으로 유지하려면 기능을 표준화해야합니다. 같은 규모.

최소화 함수는 제곱 오차의 합계 일뿐입니다.

SSE

SSESSE

이제이 경우 LASSO 인 정규화를 고려하십시오. 최소화 될 기능은

SSE+λΣ|β|

추가 기능을 추가하면 추가 페널티가 발생합니다. 절대 계수의 합이 더 커집니다! SSE 감소는 추가 벌금보다 중요합니다. 더 이상 비용없이 추가 기능을 추가 할 수 없습니다.

피처 표준화와 절대 계수의 합계에 대한 벌칙을 결합하면 검색 공간이 제한되어 과적 합이 줄어 듭니다.

이제 LASSO :

SSE+λΣ|β|

능선 회귀 분석 동안 계수를 0으로 만드는 경향이 있습니다.

SSE+λΣβ2

계수를 비례 적으로 축소하는 경향이 있습니다. 이것은 페널티 기능 유형의 부작용으로 볼 수 있습니다. 아래 그림이 도움이됩니다.

여기에 이미지 설명을 입력하십시오

실제로 규칙적인 페널티 기능은 청록색 영역으로 위에서 설명한 것처럼 매개 변수에 '예산'을 제공합니다.

SSE

https://onlinecourses.science.psu.edu/stat857/node/158 에서 찍은 사진

요약 : 정규화는 추가 매개 변수 추가에 불이익을주고 정규화 유형에 따라 모든 계수 (리지)가 축소되거나 예산이 허용하는 한 다른 계수를 유지하면서 다른 계수를 0으로 설정합니다 (lasso)


1
올가미와 능선 회귀의 차이점을 설명하고 있지만 정규화로 인해 복잡성이 낮아지는 이유에 대한 질문이 있습니다.
Sobi

"추가 기능을 추가하면 추가 페널티가 발생합니다. 절대 계수의 합이 더 커집니다. SSE 감소가 추가 페널티를 초과해야합니다. 더 이상 비용없이 추가 기능을 추가 할 수 없습니다."
spdrnl

L1λλL2

요점은 매개 변수 추가에 대한 페널티 유형이 다른 방식으로 매개 변수에 영향을 미친다는 것입니다. 실제로 훈련 데이터에 덜 적합한 매개 변수가 포함 된 모델을 얻습니다. 이는 일종의 목표였습니다.
spdrnl

0

입력에 Guassian 노이즈를 추가하면 학습 모델은 L2 페널티 정규화 기처럼 작동합니다.

이유를 확인하려면 iid 노이즈가 피처에 추가되는 선형 회귀를 고려하십시오. 손실은 이제 오차 + 가중치 표준의 기여의 함수가 될 것입니다.

파생 참조 : https://www.youtube.com/watch?v=qw4vtBYhLp0


0

대학 수업에서 선생님은 큰 매개 변수를 적용하면 모델에서 데이터의 특정 기능에 너무 많은 가중치를 두는 것을 방지하기 때문에 과적 합을 줄일 수 있다고 설명합니다. 일반적인 규칙을 배우는 대신 레이블.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.