그는 "네트워크의 효과적인 복잡성"이라고 말합니다. 그는 실제로 네트워크 가중치의 크기를 말합니다. 이것은 최소 설명 길이 원칙 으로 이해 될 수 있습니다 . 그러나 그것에 들어가기 전에, 직감은 가중치가 클수록 네트워크에 맞는 다른 종류의 기능이 가능하므로 자유도 (및 효과적인 복잡성)가 높아진다는 것입니다.
이 장에서 그는 가중치를 가능한 한 작게 요구함으로써 과적 합의 위험을 효과적으로 줄이는 기술인 정규화에 대해 이야기하고 있습니다. 일반적으로
p(D|w)=∏np(tn|xn,w)=∏nexp(β2[tn−y(xn,w)]2)/ZD(β)
wZD(β)
p(w)=exp(−α||w||22)/ZW(α)
argmaxwp(w|D)
p ( w | D ) = p ( D | w ) p ( w )
지승
인수분승∑엔β2[ t엔− y( x엔, w ) ]2+ α2∑나는승2나는
보다 일반적으로 MAP 추정치는 다음과 같습니다.
승미디엄P= 아르 기민승− l o g2피( D | w ) - L O g2( w )
표현식의 오른쪽은 분류자를 설명하는 데 필요한 비트 수로 해석 될 수 있습니다. 첫 번째 용어는 네트워크가 교육 데이터에서 수행하는 오류를 코딩하는 데 필요한 비트 수를 나타냅니다. 두 번째는 가중치를 코딩하는 데 필요한 비트 수를 나타냅니다.
MAP 추정값은 가능한 가장 컴팩트 한 표현을 선택하는 것과 같습니다. 다시 말해, 가장 적은 수의 비트로 표현할 수있는 훈련 데이터를 가능한 한 충실하게 설명하는 가중치 집합을 찾습니다.
이것은 편향 / 분산 문제의 또 다른 형태입니다. 네트워크가 훈련 데이터에 더 잘 맞을 수 있기 때문에 가중치가 클수록 첫 번째 용어는 낮아집니다. 그러나 동시에 가중치의 복잡성이 높아집니다. 가중치가 작을수록 네트워크의 복잡성은 작아 지지만 오류 항 (바이어스)은 높아집니다. 네트워크 오류를 코딩하는 데 필요한 비트 수가 더 높습니다.
이것이 그가 당신이 말하는 것에 대한 충분한 아이디어를 제공하기를 바랍니다.
추신 : 진행중인 토론에 더 긴 논쟁 추가 마지막으로 설명해 드리겠습니다.
가중치에 대한 선행은 적합하고자하는 기능에 대한 가정을 나타냅니다. 이전 (즉, 가중치)이 클수록 가우시안이 넓어집니다. 즉, 네트워크에 맞추기 위해 더 많은 구성을 고려합니다.
회귀 사건을 고려해 봅시다 (내가 언급 한 논문에서와 같이). 낮은 일반화 오류는 네트워크가 보이지 않는 샘플을 실제 값에 매우 가깝게 매핑 할 수 있음을 의미합니다. 직선을 피팅하는 경우 1 차 다항식이면 충분합니다 (낮은 복잡도). 이제 고차 다항식으로 데이터를 맞출 수 있습니다 (고차 계수가 0과 다름). 더 복잡한 곡선을 위해 진동을 허용하기 때문에 네트워크의 복잡성이 더 높습니다. 그럼에도 불구하고, 고차 항에 해당하는 계수가 충분히 낮 으면 네트워크가 직선에 매우 근접 할 수 있으므로 일반화가 양호합니다.
따라서 일반화 오류를 최소화 할 수있는 한 MDL의 요점은 가능한 한 가중을 작게 만드는 것입니다.
마지막으로 다음과 같이 인용합니다. "여전히 모델이 과적 합하기 시작하면 다른 기능을 모델링하는 기능이 증가한다는 주장이 번거 롭습니다. 과적 합 모델은 새로운 것에 적용 할 수 없기 때문에 그 반대라고 생각합니다. 정보.". 예, 더 복잡한 다른 함수를 모델링 할 수 있지만 해당 함수를 올바르게 모델링하지 못합니다. 책의 그림 5.12에서 무게의 크기가 증가함에 따라 (편차 감소) 오류가 먼저 감소합니다. 다시 증가하기 시작할 때 지정된 시점까지 (일반화 감소, 과잉 적합).